Pythonと本と子供と雑談と

いつからはじめても遅くない

COVID-19データ

COVIT-19の発表データは日々変更されています。

最近はヨーロッパの疾病予防管理センターの発表する世界の感染者数のデータを用いてアプリケーションを作成しています。こちらは当初、感染者数のみだったものが、死者数も組み入れられました。ちなみに、作成したアプリケーションでは現在、このデータをソートなどを行い、ダウンロードできるようにしています(データのタブのところでソートや編集などが行えます)。

www.ecdc.europa.eu

日本のデータは厚生労働省のものを使っていました。当初、感染経路なども含んだ詳しいデータが作成されていましたが、そのご、都道府県の感染者数のみのデータに変更されました。しかし、資料を見ていると19日からPDFに感染者数、入院者数、死亡者数のデータが発表され始めました。

さらに、昨日からそのデータがhtmlのテーブルで発表されるようになり便利になりました。そのデータは1日遅れのものですが、詳細なものとなったので、分かることが多くなりました。以下のページの下の方にあります。

www.mhlw.go.jp

PDFをパースするのはよくやっているので、一先ず19日分から昨日分までcsvにまとめ、以下のリポジトリに置いておきました。いうまでもなく自由にお使いください。今見ていると、一つのファイルにいらない文字が入ったままなので、直しておきます。

github.com

PythonでPDFのテーブルをパースするのはtabulaというライブラリを使うことで簡単にダウンロードすることができます。でもそれが毎回ちょっと不安定なので、いくつか試して例外が出た場合の処理を考えてみたいな感じになります。Javaで作られているので、Javaを入れる必要がありますが、いろいろデータを集める上で非常に役立つライブラリです。

github.com

このデータを見て、これまで感染者数しか見てこなかったので、いろいろ分かることがありました。一つは北海道の退院者数の多さです。ほかに、愛知県と兵庫県の退院者の数が少ないことが挙げられます。あと、愛知県は死亡者の割合も非常に高い傾向があるように感じられます。この辺りは専門家でないので、何があるのかわかりませんが、気になるところです。

そのほか、足元東京都の感染者数が伸びてきているのも気になるところです。

f:id:mazarimono:20200324232622p:plain
3/23のデータ

世界的に見ると米国の感染者数の伸びは非常に大きくなっています。中国の1万5千人のスパイクのところは恐ろしく、抜かれることはないだろうと思っていましたが、24日発表の世界のコロナ感染者数は4万人を超えているようです。封鎖の処置などが効いてくるのは、来週あたりからでしょうか。

f:id:mazarimono:20200324233033p:plain
世界の感染者数(デイリー)