データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

cytoscapeの中の人によるパナマ文書グラフ化プロセスの解説

良記事。勉強になった。

medium.com

 

約三行要約

  • データベースの構築はもとより、画像データのテキスト化、お金の流れを追える専門家が泥臭く作業して頑張った。こういった作業に「人工知能で自動化してウンヌン」という世界はまだまだ先の話。
  • Linkuriousという多人数でインタラクティブに作業できるグラフ可視化・解析サービスを利用。今回の分析には370人の世界中に散らばったジャーナリストがネットワーク図の確認・整理を行った。
  • 可視化の下地は整ったが、データサイエンティストを投入することにより、まだまだ多面的な解析が出来そう。また、Dockerなどでオープンな分析環境自体の公開などもできたらもっと大きなムーブメントになりそう。

  • このプロジェクトはジャーナリストの団体が行っている。団体内部にエンジニア・データ分析班を抱えているとはいえ、報道関係者がここまでITを駆使して社会に公開しているのがスゴイ。

 

自分も所属していた生物学・計算機生物学(バイオインフォマティクス)の分野ではグネットワーク図を書くのにcytoscapeというツールが良く用いられている。まさかこの記事を書かれた人がcytoscapeのcore developerの方だと知って超テンション上がった。お世話になっていました。

データ分析は、データの前処理など死ぬほど泥臭い作業が「分析作業」の殆どを占める(マジで、前処理が5割、分析が2割、レポーティングが3割 という感じ)。今回の件もご多分に漏れずそうであったらしい。ただ、画像の意味抽出にAWSをぶん回すなど、大衆化された機械の力がないとこれほどのデータを網羅的に構造化しようという動きにはならなかったと思う。また、データを公開し、世界中の好奇心溢れる技術者に寄ってたかってマイニングさせるという手段も非常に現代的でスマートだと感じる。

個人的には正直、脱税(節税?)を明らかにしてしかるべき罰を与えるためというよりは、完全に「面白そうな、何か遊べそうなデータの塊」がネット上に置かれたことで自分たちには何が出来るか、ということを考えるほうに興味がある。世の中のスキルを持つ人達の多くも自分と同じモチベーションだと勝手に思っている。

 

それにしても「可視化」の力はやはり強い。可視化される分、よくわからなくても「なんか凄そう」と感じてくれる母数が多い分野なのだろう。

ビッグデータ解析の中でも「画像解析」と「ネットワーク解析」はかなり興味があって、なおかつこれからさらにメジャーになるトピックスだと思っている。このパナマ文書解析も行き着く先に期待。