データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

ジャーナリズムとして「物事を伝えること」はますます難しくなる時代

@c_zさんの新しいパナマ文書記事

medium.com

 

約三行要約

  • offshore leaksから一部、パナマ文書に関するデータが公開された
  • データ形式csvで、きれいに整地されたデータでかつサイズが小さいのでローカルマシンでもいろいろ処理できる
  • このデータを使っていろいろ可視化などはできるが、結局、経済の専門家やオフショア金融のエキスパートではないとデータの解釈はできない

感想

ついに(一部であるが)パナマ文書のデータが正式公開され始めたそうです。しかもデータ処理についてよくわかっている人たちが公開していることもあり、データはすでに非常に取り扱いのし易い形で公開されるとのこと。素敵です。

ただ、このデータが公開されても触ることができるor解釈することができるのは、コードを書くスキルを持った人or金融のエキスパートだけになりそう。いちおうパナマ文書に関する話は「データジャーナリズム」というタグで語られることが多いそうなのですが、では「ジャーナリスト」には何ができるのでしょうか。「物事を伝える」ことがジャーナリストであり、その必須スキルは「課題発見能力だ」と実際に"ジャーナリスト"の肩書を持つ人に教えてもらったことがありますが、近年の現象には全てといっていいほど高度なIT技術や膨大なデータが関係していることを考えれば、もはやジャーナリストが必須とするスキルはそれだけにとどまらなそうです。なので、ジャーナリストは他の専門家との協同が必須だと思われます。「物事を正確に伝える」には相当な技術が必要な時代になりそうです。

 

NHKスペシャル「天使か悪魔か 羽生善治 人工知能を探る」が良い番組だった

見ました。いろいろ最近の話がまとまってて、かつNHKっぽくかっこいいビジュアライズがあって良い番組でした。あまり人工知能の話を知らない人は驚きの連続の話だったんじゃないかな

www6.nhk.or.jp

 

番組のトピック

  • 近年のAIの台頭
  • AlphaGo
  • DeepMind デニスハサビス訪問
  • 直感を学ぶAI
  • AIでガン検出
  • シンガポールにおけるAIによる社会環境への導入事例(交通・スマートハウスなど)
  • AIには善悪の判断がない(対話型AI "Tay"の差別発言など)
  • AIの暴走の危険性について
  • 倫理・思いやりを学ぶAI(ソフトバンクPepperも登場)
  • 対話相手によって対応変える対話型AI "シャオアイス"(中国で4000万人が利用し流行ってるらしい)
  • 今後もAIの進化は止まらない...

感想

いちおう、この業界で生きてるのでほぼ既知の話でした。ただ、シンガポールのAIの取り組みはすごくてビビりました。シンガポール政府は国土の狭さをカバーし、効率化するために社会インフラにAI管理を用いてるそうです。例えば、道路を通過する車の速度を監視し続け、規定値以下の速度が確認されたら意図的に青信号を増やして渋滞を起こさないようにするなど。政府の人間が「国全体を実験場にする」と発言していて、いろいろやばい国だなあと...(いい意味で)。

あとは、「思いやり」を機械に学ばせる研究などもあるそうで、自身や仲間(と認識されたもの)に対して危害が加わる場合は命令に背くなどの行動を起こせるそうです。(もしくは、「ちゃんとキャッチしてあげるからテーブルから落ちてもいいよ」というと落ちる、とか)。こういう状態を見てると確かに「ロボット三原則」みたいなものはやはりきちんと決めないとだなと思わされます。

その他は、羽生名人 英語喋れるんか!とか、alphaGoのイントネーションが「アルファード」と一緒なのが気になったくらいですね。良い番組でした。NHKオンデマンドに公開されるようなので見逃した方は一見の価値あり。

www.nhk-ondemand.jp

あとあと、羽生名人が人工知能と対戦する的な話がネットに一時流れてましたが、その話はどうなったんですかね。番組内で何か発表あると思ってたのに何も言わなかったなぁ

羽田空港の分析官が教える、「改善のために小難しい分析は必要ない」という話

会社の人が「データ分析はかくあるべし」とお墨付きをしていたので読んでみた

www.itmedia.co.jp

 

約三行要約

  • 世界の大手航空会社36社のうち、JALが「定時通りに着く航空会社」としてトップらしい(非遅延率 約90%!)
  • 特に日本最大の空港である羽田空港では、「人が飛行機に乗り遅れる」ことで発生する発進遅延を細かく調査し日々改善を繰り返している
  • 改善の一例:発進遅延が特に多いのは「朝の便」で、現場でお客さんの行動を観察していると、どうやら「朝ごはんを買う人」によって起こって遅延が起こっているようで、それに対して「搭乗口を売店に近い位置に変える」ことで見事に改善した
  • それでも「ほぼ毎回発進が遅れる便」というのもまだ存在するらしく、今後も詳細にお客さんとその行動を分析し施策をうっていくとのこと

感想

このリンクを紹介していた人は以下のようなコメントをされていた。そのとおりだと思う。

凝ったことするのがデータ分析だ、データドリブンマーケティングだ、と思い込んでるお客さんがすごく多い気がするので、素朴なことでいいから、こうやって施策に結びつけること+改善サイクル回すこと前提で分析に取り組んで、かつ成果も出してるってのは素晴らしい。 

 どんどん改善の施策をうっていくことは非常に大切。世の中的にはこれを「高速にPDCAを回す」という言い方をするが、そんな業界用語を使わずとも「とにかく変化を起こさなければ何も起こらない」ことは誰でも知っている。

データ分析官としてもどかしいと思う瞬間は、いろいろな施策を考えても実際にそれが施策として実施されないこと。「施策がイマイチだからやらない」ならわかるが、そうではない「大人の事情」でアクションができないことが多いようにも感じる。大人の事情は外部の分析会社からは口出しできない部分なので、「分析して施策提案して終わり」ということも起こる。

その点、この記事のように、組織内部の人が分析(現象の理解・解釈)を行い、組織内部で施策を実施するというのはシームレスで、かつ責任のよりどころもはっきりしているので読んでいて素敵だと感じる。「施策の実施による改善」こそが全てで、「大人の事情」を屈服させるような小難しい分析は必須ではない(もちろん人工知能も必須ではない)。

日々の観察・日々のデータの集計・事象の理解/解釈をきちんと行えば簡単でも打てる施策はきっとあるよね、ということを改めて教えてくれる記事でした。

まぁ、ただ、「施策の規模の大きさ」と「実施根拠の高尚さ・小難しさ」みたいなものを吊り合わせたいと思う人間心理もわかる。。。

さくっとSQLテーブル相関図を書く時に使えそうなツール

 

  • 新規にプロジェクトメンバーが入った時に既存のSQLテーブルの説明を簡単にしたい。
  • でも"メモ程度"であったとしてもエクセルとかパワポを作るのは面倒。そんな時に使えそうなツール

つまり、こういう感じの図を適当でもいいからサクッと作りたい

http://iandeth.dyndns.org/mt/ian/archives/20050310_01.gif

 

これが良い感じっぽい

qiita.com

 

約三行要約

  • テキスト書くだけでテーブル相関図みたいなものを生成してくれる
  • 操作方法(書き方)めっちゃ簡単。5分でマスターできる。
  • ものすごく高機能というわけではないが、テーブル間のキーの関係などを表現するには十分だと思われる
  • 簡単な図の挿入、cssによる簡単な装飾も可能
  • ブラウザ版もあるし、githubからコード落としてローカルで動かすこともできる

 

こういうのが数分でサクッと作れる

f:id:kskbyt:20160514151507p:plain

 

この記事の経緯

  1. 会社の情報共有会で、クライアント先に渡すSQLテーブルの説明が大変という話を聞く。
  2. ER図だけでも簡単に作れないものかと思う
  3. そういえば似たような話があったなぁ
  4. これのSQLテーブル相関図的なもの書けるやつないかなぁ
  5. あった(今回の記事)

 

英ガーディアン社のデータジャーナリズム分析の解説

前回のパナマ文書の記事に引き続き非常にハイクオリティーな文章を書かれる@c_zさんの記事。今回はデータジャーナリズム的なお話。長いけど読み応えある記事なのでオススメ。

medium.com

こちらが翻訳元の記事。D3.jsで描写されているだけあって、ヌルヌル動く図がかっこいい。インタラクティブな感じも非常に現代のハイセンスなwebページの雰囲気をだしてる。日本からは生まれないだろうにじみ出るオシャンティー感。

www.theguardian.com

 

約三行要約

  • 英ガーディアン社が、ウェブ版の記事に寄せられた大量のコメントを計算機により解析し、コメントによるハラスメントの傾向を分析
  • 「女性によって書かれた記事は、その内容に関わらず、嫌がらせや軽蔑的な煽りの対象になりやすいか?」という仮説を検証した
  • コメントの総数は7,000万件、記事総数はおよそ200万件、記者12,000人を対象に分析を行った
  • 結果、最も多くの嫌がらせを受けた10人の内、8人が女性で2人が黒人男性だった。最も嫌がらせを受けた回数が少なかった10人は、全員男性だった。
  • 分析には、簡単なテキスト処理にはPerl、データの置き場所にはAWS、データハンドリングにはRedshift、データの分散処理にはSpark、可視化はD3.jsを使用した。
  • 特殊なツールや高度な分析技術は使っておらず、比較的愚直に分析を行ってはいるが、元データへアクセスするAPIの公開、分析プロセスとコードのgithubでの公開など、分析における最も大切な「再現性」をきっちりと押させているところがgood。そういった意味ではAWSコモディティー化された技術を利用している点も再現性向上のためにgood
  • ガーディアン社的にもデータ分析はもっとやっていきたい領域らしく、今後は機械学習なども用いてコメント内容の解析なども行いたいらしい
  • 科学の世界のように、データ解析を用いた報道には当たり前のように分析のプロセスの透明性と再現性が求められるべきである

 

AWSやSparkなども説明も非常にわかり易く書かれていて、門外漢にも興味深く読めます。こういう記事書ける人ほんと尊敬します。

分析業界にいる身としても楽しんで読めましたし、個人的には12,000人の記者の性別データ付与の話なんかが「へえ」と思えました。日本語の名前はもっと面倒なんだろうなしかし。(というより日本語テキストの解析は嫌な予感しかしない)

 

このブログの副タイトルに「データ分析による報道の技術とその再現性」とあるように、「再現性」は分析の世界でもっとも重要なものの一つです。

「こんなに高尚な分析して、こんなにスゴイ結果だしだぞドヤ!」というためには、いつでも何回でも同じ結果を引きずり出せるように、当たり前に「再現性」が必要になります。(じゃないと小保方になっちゃう)

まあただ、大切だとわかっちゃいるけど、忙しくて分析のメモなど細かく残してなくて、一週間後に見なおして「?」となることも何回もあります。(毎回反省するのだけど。だってにんげんだもの)。そんなわけで本当にJupyter notebookにはお世話になっております。別のエディターでコード書いてても心配になるこの頃です。

それにしてもやはりデータジャーナリズム分野は、分析官としてもとても気になる領域ですね。日本に関するデータセットで遊べるハッカソンがあったら是非参加したいです。

データ解析コンペのお話が会社のブログにも載りました

blog.brainpad.co.jp

2016年2月にデータ解析コンペに参加した時の記事を書いたのですが、会社のオフィシャルブログでも公開されたので記念にペタリ。記事を書かれた方は私とは別人ですよと。

kskbyt.hatenablog.jp

 

会社名が出ちゃってて書くのも微妙なのですが、、、一般的に、「データ分析」の仕事を弊社のような分析会社に依頼するとけっこうなお値段がします。

データ分析の仕事は大体の場合、

現場・経営層へのヒアリング→依頼内容の決定(課題の発見)→データ受領→データクレンジング→データベースへのインポート→現状把握のための網羅的な集計→現状を踏まえて改めて課題の確認(大体の場合、このmtgが何回か続く)→本格的な分析(この間にも新規のデータが追加で増え続けている)→報告→レポート化

というような泥臭い作業が3〜6ヶ月続きます。けっしてPCの前だけでカタカタするスタイリッシュな仕事ではなく、先方の会社にも何度も往訪し、さまざまなステイクホルダーと議論し、たまには先方企業内の政治の話に巻き込まれその関係調整に奔走したり、多分に肉体的にも精神的にも疲れる仕事だったりします。「分析が好きだから」「統計のスキルをもっと高めたいから」「機械学習人工知能)で社会をもっと良くしたい」という個人的希望が大きすぎると、実際の分析業務との乖離で人によってはかなり疲弊してしまうかもしれない。

ちょっと話は逸れましたが、何が言いたいかというと、分析の仕事というのは多分に「人の手」が入る仕事なので仕事の単価が高いのです。そんなわけで、「データをたくさん持ってて」「"分析"に高いお金が払える」という条件を満たす「大企業」が主たるクライアントになる場合が多いです。

そういった条件があるので、今回のような「役所」のデータ解析というのは受託分析企業のデータ分析官には、珍しくて取り組み甲斐のある分析対象だったりしました。

気になるのは、このコンペ後、板橋区さんがどのようなアクションにでるのかということです。コンペの内容を実装するため正式な仕事発注、とまではいかなくても個人的にも今後、行政のデータ分析には何らかの形で関わっていきたいな−と思っています。オープンデータ/オープンガバメントのようなムーブメントに「仕事」として取り組めると幸せですなー

 

熊本震災周りに見る技術の話いろいろ

2016年4月14日午後9時26分頃、九州地方を震源とするマグニチュード6.4の地震が起こりました。熊本県益城(ましき)町では震度7が観測されました。ちなみに「震度7」は気象庁震度階級で定義される最大震度らしいです。

 

地震発生直後からすぐにTwitterでも地震情報を伝えるNHKのストリーミング動画リンクが拡散され続けました。自分も会社でこのリンク先の動画を見ていましたが、スマホ auの4G回線で快適に見れていたのでNHKさまさまです。自分も地元で体験した阪神大震災の時には無かった選択肢。当時は情報取得もどうしていたんだろう。テレビにかじりつきだったのかな

www3.nhk.or.jp

「災害情報はNHK」という意識が日本人の中にはあるようで、(そしてNHKの中の人達もその自負と責任を持っているらしい)、NHKは受信料系で文句が噴出されたりしてますがやはり重要なインフラだなと改めて感じたり。

 

一方、奇しくも、4月11日からサービスを開始したばかりの「AbemaTV」アプリでも無料で(通常利用も無料ですが。)さっそく災害情報を放送してました。

個人的には、「サービス開始したばかりのアプリでアクセス集中して落ちたり再生停止したりしないかな」と心配して見てたのですが、普通に見れました。さすがIT大企業とテレビ局が作ったアプリ。

ただまあ、インターネット時代以降の災害時によくみる光景になってしまったのですが、今回も例に漏れず叩かれるAbemaTV。

ツイッター地震情報流している旨を公式アカウントから伝えたところ、「プロモーション」というツイッターのいつものアイコンが出てしまい、「人の不幸でアプリ宣伝すんな」というリプが届きまくる。

「これはツイッターの仕様なんだから...」「無料で一次情報に近い情報を流してくれてんだからこんな時までカリカリすんなよ...」と苦い思いでタイムライン眺めてました。

f:id:kskbyt:20160415232830p:plainf:id:kskbyt:20160415232825p:plain

 

また、ネット回線から音声回線に無料で10分繋いでくれるサービス(Line Out)をLineが開放してくれたところ、こちらも叩かれる。

headlines.yahoo.co.jp

リンク先の内容のとおり、「有限の音声回線を圧迫する行為なのでよろしくない」という指摘ももっともであると思う。それに、安否確認なんて緊急の状況で「10分の電話代」をケチろうとする人がそもそもどれだけいるのだろうか。安直な企業対応だったと感じなくもない。しかし、「無料にしなかったらしなかったで叩いたでしょ?」とも思ってしまった。なんて窮屈な国になってしまったんだニッポン。

モノを提供しないネット系企業は逆に、被災支援となるとすぐに何かしらのソフトウェア的な支援をするよう社会的に期待される。NHK、AbemaTV、Lineのように喜ばれたり、ディスられたり、苦言を呈されたり評価が大きく分かれる。「被災時には真に何が求められているのか」がまだ社会的にも共有されていない状態を表しているようにも思う。

 

その他、ネタになってた話。

togetter.com

お城の瓦は地震発生時には敢えて落ちるように固定されておらず、瓦が落ちることで城本体への振動を軽減する免震システムになっているという話。日本人は昔から地震へのリスクテイクをきちんと考えている。

 

blog.livedoor.jp

www.buzzfeed.com

で、現代版のお城というか、一般のアパートでも構造上脆い部分を敢えて作っておいて、地震発生時にそこを壊す(切り離す)ことで振動を軽減する作りになっているらしい。

被災された方には恐縮だが、震災が起こらなければ陽の目を見なかった匠の技やノウハウがこうしてネットにでてくるのは興味深い。

最近のインターネットサービスを含めても、我々日本人は昔からいろいろなものに地震から守ってもらっているのだと感じたり。