Pythonと本と子供と雑談と

いつからはじめても遅くない

PyConJP2020で「オープンデータを使って、Pythonでデータ分析」というチュートリアルを行いました

表題の通りチュートリアルをPyCon mini Hiroshimaのksntさん、PyData Osakaのkozo2さん、Taku Yoshiokaさん、wristさん、そして私で行わせていただきました。6時間やるということで、内容を作れるのかという不安がありましたが、実際作ってみると時間が全く足りないってかんじでしたが、いかがでしたでしょうか?

pyconjp.connpass.com

西日本の5人がチュートリアルを行うということはリアルイベントでは、移動費などもろもろを考えると難しそうですが、今回はオンラインだからこそこのメンバーでできた感があります。みんな実際忙しそうだったので、リアルで東京でやるとかだとそれは無理だなとなったと思います。

作成した内容は、もうこれ以上のことは今のところ出来ないという達成感のあるものができたと思います。今回の記事ではその作成過程をメモっておきます。ちなみに資料は下のリポジトリにあります。スターいただけると嬉しいです。

github.com

作成方法

作成はYoshiokaさんが、毎週集まった方が良いとの提案をされて、毎週土曜日の14時から18時ごろまでZOOM上でみんなで集まって、少し話した後資料を作成していました。約2カ月くらいそれをやっていました。会社とか関係ないメンツで集まって作るってのは斬新な楽しい経験でした。

内容

内容に関しては、タイトルを先にPyConJPさんから頂いていたので、それを肉付けしていきました。最初に使いたいライブラリを挙げました。今回の目玉はPydeckで、kozo2さんが最初にこれに興味があるということで、見せてもらった時にスゲーってなって使いことになりました。Pydeckは飛んでもない位置データの可視化ツールだということが分かっていただけたと思います。あれを使ったら仕事とれる!と思います。

データの選択はほぼ私が行いました。オープンデータネタはほぼデータの選択勝負というところがありました。今回機械学習をやるという課題があり、それに合うデータを探すというのが最も困難でした。最初は普通のデータを使っていたのですが、うーんどうも機械学習部分が実践的なものにならないということで、いろいろデータを探しました。

統計データというのは分かりやすさのために集計されているデータが使われていますが、機械学習でそれを使うとほぼ時系列予測みたいなものになって、そうなると面白くなく、個別のデータが必要であるということに気づきました。そういう視点で、その後データを探して家計調査のミクロデータを見つけたわけですが、まぁあれも1カ月のスポットなデータで外れ値みたいなのが多く、もうちょっとデータがいたのかなぁとか思います。データを購入する検討もしたのですが、時間的に間に合わないのでできませんでしたが、次に機会があればやってみたいですね。

まとめ

という感じで作成し、昨日それを行いました。6時間の長丁場は正直疲れましたね。。。スタッフのみなさまはもっとお疲れだと思います。改めまして運営ありがとうございました。 参加者のみなさまもご参加ありがとうございました。当初の検討では50人くらい応募していただけるかなという感じでしたが、実際はそれを大幅に上回る応募をいただきました。あれをすべてやっていただいて、データ分析もっとやっていこうってなるのか、もうやめておこうってなるのかわかりませんがw、おー面白い!ってなられた方はもっと深堀していただけると良いかと思います。

はい。私的な感想としては疲れたけど楽しかったという感じですね。この夏も忙しく、完全に体調がおかしくなってしまったので、働きながら療養に努めます。あと、検査とか行った方がよさそうですねぇw

あ、あと、昨年のPyConJPスプリントにPyCon Taiwanのスタッフの人が参加してくれていて「イヤーこういうの面白いね」って話してくれていたんですが、昨日、来週開催されるPyCon Taiwanでplotly/dashのチュートリアルあるってツイッターで知らせてくれました。

tw.pycon.org