データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

英ガーディアン社のデータジャーナリズム分析の解説

前回のパナマ文書の記事に引き続き非常にハイクオリティーな文章を書かれる@c_zさんの記事。今回はデータジャーナリズム的なお話。長いけど読み応えある記事なのでオススメ。

medium.com

こちらが翻訳元の記事。D3.jsで描写されているだけあって、ヌルヌル動く図がかっこいい。インタラクティブな感じも非常に現代のハイセンスなwebページの雰囲気をだしてる。日本からは生まれないだろうにじみ出るオシャンティー感。

www.theguardian.com

 

約三行要約

  • 英ガーディアン社が、ウェブ版の記事に寄せられた大量のコメントを計算機により解析し、コメントによるハラスメントの傾向を分析
  • 「女性によって書かれた記事は、その内容に関わらず、嫌がらせや軽蔑的な煽りの対象になりやすいか?」という仮説を検証した
  • コメントの総数は7,000万件、記事総数はおよそ200万件、記者12,000人を対象に分析を行った
  • 結果、最も多くの嫌がらせを受けた10人の内、8人が女性で2人が黒人男性だった。最も嫌がらせを受けた回数が少なかった10人は、全員男性だった。
  • 分析には、簡単なテキスト処理にはPerl、データの置き場所にはAWS、データハンドリングにはRedshift、データの分散処理にはSpark、可視化はD3.jsを使用した。
  • 特殊なツールや高度な分析技術は使っておらず、比較的愚直に分析を行ってはいるが、元データへアクセスするAPIの公開、分析プロセスとコードのgithubでの公開など、分析における最も大切な「再現性」をきっちりと押させているところがgood。そういった意味ではAWSコモディティー化された技術を利用している点も再現性向上のためにgood
  • ガーディアン社的にもデータ分析はもっとやっていきたい領域らしく、今後は機械学習なども用いてコメント内容の解析なども行いたいらしい
  • 科学の世界のように、データ解析を用いた報道には当たり前のように分析のプロセスの透明性と再現性が求められるべきである

 

AWSやSparkなども説明も非常にわかり易く書かれていて、門外漢にも興味深く読めます。こういう記事書ける人ほんと尊敬します。

分析業界にいる身としても楽しんで読めましたし、個人的には12,000人の記者の性別データ付与の話なんかが「へえ」と思えました。日本語の名前はもっと面倒なんだろうなしかし。(というより日本語テキストの解析は嫌な予感しかしない)

 

このブログの副タイトルに「データ分析による報道の技術とその再現性」とあるように、「再現性」は分析の世界でもっとも重要なものの一つです。

「こんなに高尚な分析して、こんなにスゴイ結果だしだぞドヤ!」というためには、いつでも何回でも同じ結果を引きずり出せるように、当たり前に「再現性」が必要になります。(じゃないと小保方になっちゃう)

まあただ、大切だとわかっちゃいるけど、忙しくて分析のメモなど細かく残してなくて、一週間後に見なおして「?」となることも何回もあります。(毎回反省するのだけど。だってにんげんだもの)。そんなわけで本当にJupyter notebookにはお世話になっております。別のエディターでコード書いてても心配になるこの頃です。

それにしてもやはりデータジャーナリズム分野は、分析官としてもとても気になる領域ですね。日本に関するデータセットで遊べるハッカソンがあったら是非参加したいです。