データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

機械学習用の学習データをイチから自力で作るには愛がないと無理だと悟った

いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライド

コードや説明など細かく書いて公開されているのですごく勉強になる

speakerdeck.com

上記のスライドのテキスト内容(ブログ記事)がこの辺になるらしい

機械学習の結果の精度はツール自体(アルゴリズム)の精度、というよりはインプットデータの量と綺麗さによる部分が大きい。そんなわけでこのスライドに紹介されている話も例によってインプットとする画像への正解ラベル付けが地獄なわけですが、

 

ということで、学習用のデータを用意するのは大変だけど、

  • ある程度(自力でラベル付を行い正解データが)集まったらとりあえず学習させる
  • 学習させたモデルを使って推論させてみる
  • 推論結果を検証することで学習データを増やし、再び学習させることで精度が上がる

というサイクルを続けることで、なんだかんだで自力で13000点ほどの分類済みのアイドル顔データを作ることができている。

そうなのか、、、それだけで本当に13000枚の写真にラベル付ができるのか...orz 傍から聞くとすごい修行感あるのに...

ただ、すぎゃーん氏もラベル付けのために自作のウェブアプリなどを自作されてて、入力などストレス無くサクサク出来るようにしている。ウェブエンジニアはこういうツールをサクッと作れるのでスゴイ。

その結果、こうなったらしい。

f:id:kskbyt:20160521225411p:plain

うんー。仕事で仕方なく全く興味ない対象の学習データを自力で作るの、これ見たらやっぱり無理だと悟った。愛がないと無理。

チャットbotというUIにするだけで確かに便利っぽくなる

LOHACOの会話AI(?)が話題なので実際に使ってみた

bita.jp

何かのアプリとかインストールさせられるのかもと思ったら、LOHACOのWebページ上でブラウザだけで操作(会話)できる

lohaco.jp

 で、やってみたんだが、これってAIなのか?(汗)

よく検索される内容は会話前から既に選択肢として表示されている。これはまあ良いのだけど、実際に「ビールが欲しい」とか投げると単にビールの標品紹介URLを教えてくれるだけ。単にこれは「ビール」「欲しい」などの単語に対して決まったレスポンスを返しているだけでは...

なにか、もっとAIの本領を発揮する単純な質問以外を投げれば「AIすごい!」と思える反応をしてくれるかもしれないが、自分がいろいろ質問をした限りは

  • 単純な質問 → 質問中のワードに関する紹介ページを教える
  • 主語述語などがはっきりしない質問。言葉を省略した質問 → わかんない、と返す

これは流行りの「何でもかんでもAIと言っとこう」という奴なのか。。。しかし上記記事のようになんだかすごいコスト削減が実現されたらしい。うーん。

 

考えてみると、これは単純に受け答えの精度が良いからではなく、「対話質問形式」というUIが従来の「検索ウィンドウのみ」のUIよりも利便性が高かっただけではないのかと思う。

最近は何でもかんでもウェブアプリ化され、そもそも一般の人は「検索する」という行為が減ってきていると話も聞く。LINEの利用率の高さもあり、「検索ウィンドウなんてしゃらくせえ」ということで対話形式の慣れ親しんだUIが受け入れられている、ということではないのかな

仮にそうだとすると、やはりfacebookが作ろうとしている(作った?)facebookメッセンジャー上で商品売買や支払いが出来る流れは大正解で、非常に成功するのではないかなどうなのかな

 

世のツイッタラーはGWに何を撮ってアップしていたのか?(Twitter API+Cloud Vision API)

というタイトルでQittaに初めて記事を書きました。社内勉強会向けにゴールデンウィークに書いたネタ記事です。

qiita.com

久々にmarkdown書いたのですがやっぱりメンドイ。特にテーブルとか思った通りに表記できなくてストレス溜まる感じですね。文章書くというのは大変だ...

あわよくばこの記事が誰かの役に立ちますように。俺の屍を越えて行け。

データサイエンティスト協会が「データサイエンティストを目指す人のためのページ」を開設

データサイエンティスト協会が本日、新たなWebページを公開したそうです。

www.datascientist.or.jp

 

ページの説明には"データサイエンティストとデータサイエンティストを目指す方のための無料会員制情報サイト"となっており、ざっくり中身を見てみると、公開されたばかりでほぼコンテンツは空の状態ではありますが、データ分析に関する企業インタビュー記事、勉強会・セミナーの案内、データサイエンティスト職に対するQ&A、スキルチェック、求人情報(!)などが今後掲載されていく予定のよう。データ活用を目指す企業向けではなく、たしかに「データサイエンティスト(人)」に向けたページにしていく様子が見られます。インタビュー記事などはVIPな方が登場しそうな予感がするので楽しみですね。

 

データサイエンティスト協会といえば話題に上がるのが、「データサイエンティストスキルチェックリスト」。

www.slideshare.net

わりと膨大な量でビビるのですが、yahoo、電通、albelt、SASIBMの方々が委員会に参画しており、非常に真面目に作られた資料だそうです。データサイエンティストの分析を力を示す具体的なスキルカテゴリやそのレベルなどが詳細に記載されており一読の価値がありです。

「これが何の役に立つの?」と思われますが、求人の際などに利用が期待されているそうで、「当社はデータサイエンティストとしてレベル◯は必須で、それ以上の人を雇いたいです。レベル◯以上はオーバースペックなので今回は遠慮します」みたいな応募が掛けられてニーズスキルで明確化できるので便利なのだとか。データサイエンティストを目指す人も、勉強のための目標ができて良いかもしれません。今後のコンテンツも楽しみですね。

ジャーナリズムとして「物事を伝えること」はますます難しくなる時代

@c_zさんの新しいパナマ文書記事

medium.com

 

約三行要約

  • offshore leaksから一部、パナマ文書に関するデータが公開された
  • データ形式csvで、きれいに整地されたデータでかつサイズが小さいのでローカルマシンでもいろいろ処理できる
  • このデータを使っていろいろ可視化などはできるが、結局、経済の専門家やオフショア金融のエキスパートではないとデータの解釈はできない

感想

ついに(一部であるが)パナマ文書のデータが正式公開され始めたそうです。しかもデータ処理についてよくわかっている人たちが公開していることもあり、データはすでに非常に取り扱いのし易い形で公開されるとのこと。素敵です。

ただ、このデータが公開されても触ることができるor解釈することができるのは、コードを書くスキルを持った人or金融のエキスパートだけになりそう。いちおうパナマ文書に関する話は「データジャーナリズム」というタグで語られることが多いそうなのですが、では「ジャーナリスト」には何ができるのでしょうか。「物事を伝える」ことがジャーナリストであり、その必須スキルは「課題発見能力だ」と実際に"ジャーナリスト"の肩書を持つ人に教えてもらったことがありますが、近年の現象には全てといっていいほど高度なIT技術や膨大なデータが関係していることを考えれば、もはやジャーナリストが必須とするスキルはそれだけにとどまらなそうです。なので、ジャーナリストは他の専門家との協同が必須だと思われます。「物事を正確に伝える」には相当な技術が必要な時代になりそうです。

 

NHKスペシャル「天使か悪魔か 羽生善治 人工知能を探る」が良い番組だった

見ました。いろいろ最近の話がまとまってて、かつNHKっぽくかっこいいビジュアライズがあって良い番組でした。あまり人工知能の話を知らない人は驚きの連続の話だったんじゃないかな

www6.nhk.or.jp

 

番組のトピック

  • 近年のAIの台頭
  • AlphaGo
  • DeepMind デニスハサビス訪問
  • 直感を学ぶAI
  • AIでガン検出
  • シンガポールにおけるAIによる社会環境への導入事例(交通・スマートハウスなど)
  • AIには善悪の判断がない(対話型AI "Tay"の差別発言など)
  • AIの暴走の危険性について
  • 倫理・思いやりを学ぶAI(ソフトバンクPepperも登場)
  • 対話相手によって対応変える対話型AI "シャオアイス"(中国で4000万人が利用し流行ってるらしい)
  • 今後もAIの進化は止まらない...

感想

いちおう、この業界で生きてるのでほぼ既知の話でした。ただ、シンガポールのAIの取り組みはすごくてビビりました。シンガポール政府は国土の狭さをカバーし、効率化するために社会インフラにAI管理を用いてるそうです。例えば、道路を通過する車の速度を監視し続け、規定値以下の速度が確認されたら意図的に青信号を増やして渋滞を起こさないようにするなど。政府の人間が「国全体を実験場にする」と発言していて、いろいろやばい国だなあと...(いい意味で)。

あとは、「思いやり」を機械に学ばせる研究などもあるそうで、自身や仲間(と認識されたもの)に対して危害が加わる場合は命令に背くなどの行動を起こせるそうです。(もしくは、「ちゃんとキャッチしてあげるからテーブルから落ちてもいいよ」というと落ちる、とか)。こういう状態を見てると確かに「ロボット三原則」みたいなものはやはりきちんと決めないとだなと思わされます。

その他は、羽生名人 英語喋れるんか!とか、alphaGoのイントネーションが「アルファード」と一緒なのが気になったくらいですね。良い番組でした。NHKオンデマンドに公開されるようなので見逃した方は一見の価値あり。

www.nhk-ondemand.jp

あとあと、羽生名人が人工知能と対戦する的な話がネットに一時流れてましたが、その話はどうなったんですかね。番組内で何か発表あると思ってたのに何も言わなかったなぁ

羽田空港の分析官が教える、「改善のために小難しい分析は必要ない」という話

会社の人が「データ分析はかくあるべし」とお墨付きをしていたので読んでみた

www.itmedia.co.jp

 

約三行要約

  • 世界の大手航空会社36社のうち、JALが「定時通りに着く航空会社」としてトップらしい(非遅延率 約90%!)
  • 特に日本最大の空港である羽田空港では、「人が飛行機に乗り遅れる」ことで発生する発進遅延を細かく調査し日々改善を繰り返している
  • 改善の一例:発進遅延が特に多いのは「朝の便」で、現場でお客さんの行動を観察していると、どうやら「朝ごはんを買う人」によって起こって遅延が起こっているようで、それに対して「搭乗口を売店に近い位置に変える」ことで見事に改善した
  • それでも「ほぼ毎回発進が遅れる便」というのもまだ存在するらしく、今後も詳細にお客さんとその行動を分析し施策をうっていくとのこと

感想

このリンクを紹介していた人は以下のようなコメントをされていた。そのとおりだと思う。

凝ったことするのがデータ分析だ、データドリブンマーケティングだ、と思い込んでるお客さんがすごく多い気がするので、素朴なことでいいから、こうやって施策に結びつけること+改善サイクル回すこと前提で分析に取り組んで、かつ成果も出してるってのは素晴らしい。 

 どんどん改善の施策をうっていくことは非常に大切。世の中的にはこれを「高速にPDCAを回す」という言い方をするが、そんな業界用語を使わずとも「とにかく変化を起こさなければ何も起こらない」ことは誰でも知っている。

データ分析官としてもどかしいと思う瞬間は、いろいろな施策を考えても実際にそれが施策として実施されないこと。「施策がイマイチだからやらない」ならわかるが、そうではない「大人の事情」でアクションができないことが多いようにも感じる。大人の事情は外部の分析会社からは口出しできない部分なので、「分析して施策提案して終わり」ということも起こる。

その点、この記事のように、組織内部の人が分析(現象の理解・解釈)を行い、組織内部で施策を実施するというのはシームレスで、かつ責任のよりどころもはっきりしているので読んでいて素敵だと感じる。「施策の実施による改善」こそが全てで、「大人の事情」を屈服させるような小難しい分析は必須ではない(もちろん人工知能も必須ではない)。

日々の観察・日々のデータの集計・事象の理解/解釈をきちんと行えば簡単でも打てる施策はきっとあるよね、ということを改めて教えてくれる記事でした。

まぁ、ただ、「施策の規模の大きさ」と「実施根拠の高尚さ・小難しさ」みたいなものを吊り合わせたいと思う人間心理もわかる。。。