データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

パナマ文書の取引や株主の情報がグラフ構造として公開されてるらしい

マジか。

f:id:kskbyt:20160409152050p:plain

https://linkurious.icij.org/widget/45747ce9

 

その前にそもそも「パナマ文書」ってなんだよって人はコチラのページ参照

blog.livedoor.jp

 

このデータは「Panama Papers Dataset 2016」というタイトルで、githubにて公開されている

github.com

こちらのドキュメントを見てみると、データの取得はICIJページのソース情報からチクチクとダウンロードしてきたらしい

Reproducing the step
  • Load the ICIJ stories link
  • Open the Chrome inspector ( Right Click -> Inspect Element )
  • Under Network tab, navigate to XHR subtab
  • Refresh the page, and you will be able to see the list of outgoing requests
  • You will notice an en.csv file, Right Click -> Copy Link address, and there you have it.
  • You can also catch the CSV file just by typing csv into the Filter text field
  • Because stories are available in different languages, so you can guess the name of other files (fr, de, pt ..etc)

パナマ文書はかなり膨大なデータ量らしいので、インターネットの力で寄ってたかって解剖していくのは非常に時代っぽい感じがする。

ネットに公開されてしまったし、世界的にもかなり認知度を得てしまったので、もしかすると今回のデータはもっと綺麗に整理されてデータマイニングの学習データセットにでもなってしまったりするんじゃなかろうか。data.frame(PanamaDoc)みたいな

d.hatena.ne.jp

 

上の2chページのコメントを眺めていると、

「日本ではなぜあまりパナマ文書のことが報道されていないんだ?」=> 「テレビ局のスポンサー企業の名前が入ってるとマズイし、局の人たちも実際入ってると予想してるからでしょ」

というコメントが笑えた。

逆に、ツイッターコメントでは、「データジャーナリズムみたいな言葉も一応日本にもあるそうだが、日本メディア関係者からはこういった取り組みは絶対でてこないね」、みたいなコメントも見かけた。ホントにそうだよなーと思う。日本でデータジャーナリズムっぽいことをやってるのはメディア関係者・ジャーナリリストというより、知的好奇心で趣味的にやってるエンジニアや大学関係者が多い印象だなー。