隗より始めよ

今後はいろいろ考え始めます。

データ周りの話

f:id:mazarimono:20181228063316j:plain

データ周りの話を久しぶりに書いてみようと思います。

元々金融データをPythonで触っていたのですが、ちょっとずつその分野から染み出し、公共データという面白い分野を見つけてそこに着手し始めたというのが私の今年後半の展開でした。

金融データからなぜ他分野へと手を広げたか??というのは株式市場ってのは上げ相場は取りやすいけど、下げ相場はボラティリティが激しく、後からチャートを見た以上に取りにくいというのが一つあります。激しくトレードするのであればボラは友達な感じですが、3ヵ月とか保有を考えるとロスカットに引っかかりやすくなるだけであまり良いことないです。ショートで儲かるやんという話も聞きますが、昨今の相場を見ても分かるように、ボラ激しすぎて下手やと死にます。

なので、私のような下手糞は上げ相場のおこぼれをもらうというスタイルが一番で、それ以外はエクスポージャーを極端に落とすというのが手であるという結論が今年早々に出ていました。

あと、もともと会社を辞めたのも金融以外のことをやってみたいと思ってのことでしたので、実業に取り組んでいくというのは非常に良い話だなぁなんて思います。

で、偶々金融でも野良データを集めてみたいなことをやっていたので、データの加工から何でもできるようになっていたところに、神エクセルをデータとして使いたいみたいなところのニーズがあることが分かりました。そうして、色々見ていると、どうもデータ成型とかできる人って少ないということが分かり始めました。ということで、その辺から可視化、そして機械学習とかにデータを食べてもらうようなことをやるのがビジネスになりそうということで、その辺に最近は取り組んでいます。

お前ごときが機械学習とかなりそうですが、まぁ大方がライブラリ使って、学習データも元あるものに自分のデータを足してみたいな感じで、fitさせてpredictするだけの人なので、ガチ勢に攻められるとおおすまないとなりますが、大方の人はそれくらいなのでそこを強化するということはたぶんないかと思います。どっちかというとKeras万歳みたいな感じですw

で、最近は小作品を作っていますが、可視化にはほとんど時間がかかっていません(Dash様様です。これもちょっと工夫しないといけないわけですが)。 例えば下の記事なんかはデータの加工に2日、可視化は調べながら1時間みたいなレベルです。

www.mazarimono.net

あと、もう一つ大阪市の自動車保有データを処理したものもあるのですが、こちらはデータの加工に1週間くらいかかりました。

この二つのデータを(元データはエクセル)弄って分かったのは、お役所のエクセルはPDFにするために作られており、そのためにあのような形状になっている。そして、そのためにあのような神エクセルが作られるのだなってことでした。PDFが見やすいのは神エクセルのおかげですが、これは人間フレンドリーである一方、コンピュータに食わせるためのデータにするには、滅茶苦茶大変な作業が必要になります。

そうしてpandasでコネコネするわけですが、これをやってるとエクセルの直データをいじった方が早いなって気になってきます。正直、その作戦も使っていますが、あまりやりすぎると人手によるミスも出てきますので、極力、コードで解決を目標にしてやるようにはしています。

しかし、コードにしても3年くらいで担当者の方が入れ替わるのか、作り方がちょっと変わってしまってみたいなこともあったりで、それごとに微妙な調整をしないといけなくなりますが、そうであるということが最近分かり始めたので、全てのデータを見てから作業を開始するということをやるようにしています。

しかし、これが民間企業のデータとなるとどうなるのかと考えると末恐ろしいですが、それだけデータの加工分野だけでもビジネスチャンスが転がっているとなると、興味津々となってしまうというのが今日この頃の私の思いです。

機械学習エンジニアの人とかはそういうことはできるでしょうが、そういうすごい方にはその分野で活躍してもらって、私のような低能力な技術者はデータの加工とかで頑張っていけたらなぁって感じです。しかし、データの加工でちょいちょい話をしていても、「これデータあるからちょっとやってみてくれ(ここで今すぐ)」みたいな話が多くて、中々難しい。その加工の大変さとその対価って部分ではなかなか釣り合うところにまで持っていけないのかなぁなんて感じもありますが、まぁそれを分かってもらうような感じのことを作るのがまずは先決なのかもしれないなぁって最近は思ってきました。

ほんとはもっと違う話を書く予定でしたが、頭から染み出してきたのはこんな感じの話でした。来年の終わりにどんな感じのことを書いているのかちょっと楽しみです。

年末年始にpandasを学んでみたい方は下の本がおすすめです。

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理