今週インプットしたデータサイエンス関連の情報の中で面白かったものを紹介します。今週公開されたものとは限りません。
面白かった記事
データサイエンスはアメリカでは前年比37%の成長が見込まれていて、2018年のGlassdoorのアンケートでは初任給が平均年10万ドルだったとのことです。データサイエンスが話題になり始めてからしばらく経ちますが、これからも期待できる分野だと考えられます。
この記事の筆者ががよく使うパッケージは、
- Pandas
- NumPy
- Scikit-learn
- Matplotlib
- Seaborn
- Plotly / Plotly Express
- Folium
- TensorFlow
とのことです。
このリストの後半は使ったことのないパッケージもあるので、まだまだ勉強することは多いですね。
Google Colabのようなクラウド上で動くツールのおかげで、手元にいいハードウェアがなくてもデータサイエンスができるようになってきました。
面白かった動画
Open Source Software for Data Science - J.J. Allaire
先月のRStudioのカンファレンスで、RStudioがPublic Benefit Corporationになることが発表されました。Public Benefit Corporationの日本語訳が見当たらないのですが、単純に利益を追及するのではなく、何らかの形で社会の役に立つことが主な目的の企業形態です。
RStudio社はRStudioというR言語のIDEを開発していて、それに関連するサービスも提供していますが、それ以外でもデータサイエンスでよく使われるTidyverseというパッケージ群の開発などもRStudioの社員が中心に行っています。
R言語界隈では非常に存在感のある会社で、一つの企業がこれだけ影響力を持っているのがよくないと思っている人もいますが、このTidyverseがなければPythonを使うという人もいると思いますし、個人的にはRのコミュニティにいい影響を与えていると思っています。
R言語のコミュニティ(#rstats)は非常にフレンドリーで、R言語の一番の魅力と言っても過言ではないので、それが今後も続きそうでよかったです。RStudioはR言語のコミュニティのためにベストな選択をしてくれたのではないでしょうか。
ちなみに、RStudioのカンファレンスの動画はここで全部見れます(英語):
面白かったグラフ・データ
News in the Age of Abundance — David Perell
ニュースの歴史や、ニュースとどう付き合えばいいかというようなことについて書いてあります。
ネット上でどのように情報をインプットすればいいかいつも考えていますが、この記事も考えさせられることが多かったです。
面白いなと思ったのは、後半で紹介されている、"Causes of death in the US"(アメリカでの死因)と題されたグラフです。
元のグラフはOur World in DataのCauses of Deathという記事に載っています。
Hannah Ritchie and Max Roser (2020) - "Causes of Death". Published online at OurWorldInData.org. Retrieved from: 'https://ourworldindata.org/causes-of-death' [Online Resource]
x軸は左から、「アメリカでの死因」、「グーグル検索」、「NYタイムズ紙」、「ガーディアン紙」で、y軸はそれぞれの2016年での各死因の割合です。
つまり、実際の死の原因の30.2%は心臓病(Heart Disease)だったのに、Googleでは検索された死因の2%程度で、メディアで報道された死因3%未満が心臓病だったということです。
特に現実との大きな差が見られるのはテロに関してです。テロはアメリカでの死の0.01%未満なのに、新聞で報道された死因の3割以上がテロとのことです。
テロは確かに怖いですが、実際は交通事故などで死ぬ可能性の方が高いわけです。それなのにテロや殺人の話題が多く報道されるのは、それらが注目を集め、ニュースサイトのアクセスを増やすからだとPerrel氏は説明しています。
テロが死の0.01%未満だからと言って、必ずしも報道も同じ割合にするべきだとは思いませんが、心臓病のリスクや交通事故を減らすためにどうすればいいか解説する記事がテロに関する記事より多い方が、世の中のためになるのではないかとも考えられます。
こういった現実を知った上で、どのような情報をインプットするか考えべきではないでしょうか。