「第2回 Machine Learning 15minutes!」 に参加したので印象的だった話メモ
7/23と少し前ですが、参加したイベントのメモ
印象的だった話を箇条書きで。
個人的には「動画を理解するAIエンジン」と「クリエイティブを創作するAI」の話が非常に興味深かったです
当日の会場の雰囲気はこちら
machine-learning15minutes.connpass.com
イタンジ株式会社の高橋さんから、自社のネット不動産サービス(nomad)で動いているチャットボットの自動返信について。
- webに掲載している不動産についての質問はチャットで受け付けている
- 成約までにお客さんとの間に平均80回チャットが行われる。その手間をチャットボットで減らしたい
- ボットで対応できない処理は人間オペレータが対応。そのチャットデータもボットへの学習データとして食わせる
- メッセージの処理はシンプル
- 「。」「!」「?」などで文書分解。Janomeで形態素解析。KerasのLSTMに突っ込んでメッセージ種類を判別。質問の種類を300くらいに分ける(ex. ペットに関する質問etc)。認識した質問に対して返信メッセージを作成する。
- 精度は80%ほどだが、挨拶などへの返答などを除くと実際の精度は4割ほど。
- 直前のメッセージだけをみて質問の種類300くらいから当てるのは困難
- 返答したメッセージに対する質問などをされるとツライ
- 物件の確認など、人間が介する仕事はどうしても無理なのでAIと人間のハイブリットで頑張る
チャットボットの詳しい内容に関しては以下のブログ記事参照
クーガー株式会社 石井さんから「動画を理解するAIエンジン及びAI学習シミュレーターについて」
- youtubeの動画を読みこませると、その動画に今なにが映っているかを確率表示で返す(このAIエンジンは現在公開されていないっぽい)
- 風景などのシーンの認識精度は高いっぽい
- マリオのクリボーなどは「動物」と判定される。しかし小さな子どもに「クリボー」を見せると同じく「動物」と認識するので機械がそう認識してもまあおかしなことはない
- 機械が動画に映っているものを認識できると何が嬉しいのか?-> 動画に対して明示的なタグ情報無しに「検索」がかけられるようになる
- 応用分野-> スポーツの試合動画で「シュートシーン」をピンポイントで検索する。キャラクターの検索。(タグ情報無しで)特定出演者の動画検索などなど
- さらに、「動画に何が映っているか」の技術はそのまま自動運転への応用に発展できる。
- 自動運転させるために様々な事前情報(高精度な地図データや、さまざまな周辺環境への自己適応など)を学習させておくが、例えば、「渋谷のハロウィンイベント」など超特異的に発生する環境には対応しきれない。
- そういった状況には「現在何がカメラ内に写り込んでいるか」を認識し正しく自身の周辺環境を認識する技術が必要。「動画の理解」はそういった領域にも貢献できる
株式会社AOI Pro.の佐々木さんから「感情・気分はAIで作れるか?CreativeGenomeのご紹介」
https://www.slideshare.net/secret/nNNvgxeNpwJ0l0
- AOI pro.はCMや映画・ドラマ・web・スマホ動画など「クリエイティブ」を作る会社
- クリエイティブは非常に「ハイコンテクスト」なモノ。気分に訴えかけるもの。AIにも人間並みのクリエイティブを作ることはできるか?
- クリエイティブAIの例。絵画を書くAI、映画のコマを先読みをするAI、映像コンテンツの高度な推薦(netflix)、音楽の網羅的なタグ化・DB化(Pandora Radio)、小説を生成するAIなど。
- 上記の共通点、「プロの目によるクリエイティブへのタグ付け」 -> データ化を行う。とにかく一度要素分解し、データにする。
- タグ付け(データ化)するだけで本当にAIはクリエイティブ領域に本質的に資するか? -> とりあえずやってみる
- プロの目によるクリエイティブへのタグ付けとして、TVCMを対象に実施(Creative Genome Project)。コンセプト、UX、手法、トーン、テンション、モデルなど"CMの作り手視点で"詳細なタグをつけていく
- 詳細タグをベースにクリエイティブの関係性を分析してみるといろいろ面白いことがわかった(詳細はブラインド)
- GoogleやAmazonはこういった「クリエイティブを作るプラットフォーム」はやらないだろうからチャンスがある
感想
「機械に動画を理解させる」=>「自動運転へ応用」というクーガー石井さんの話はアカデミックな意味でも面白かったです。
ただ、気持ちを揺さぶられたのはクリエイティブAIの佐々木さんのお話でした。
というのは、実は自分も仕事で某社の「動画コンテンツ」の分析を行ったことがあったからです。
当時も、動画を分析するためにはNetflixのように詳細なタグ付けが必要だということになり先方にもタグ付け協力を仰いだのですがやはりお忙しい身のため「我々は無理だ。タグ付けは機械で出来ないのか?」という話になりました。
動画をどのように分析したいのかにもよると思いますが、やはり詳細に分類されたタグを動画に紐付けることで初めて分析が出来る、というのがこの分野のスタンダードなアイデアになっていると思います。
この辺りは意を決して人間と時間と労力をぶっ込んでヒイヒイ言いながらタグ付与していくしかなさそうです。その代わり、完成したデータは唯一無二の絶対的な貴重なデータとなります。こんなところにも「泥臭い作業こそが求められる」というスポ根チックな現実が転がっています。
「そんなのクラウドソーシングに投げれば良いのに」と思われる人もいると思いますが、単純な画像の仕分けなどはそれでもいいとして、ここで欲しいのは「専門家によって超詳細に分類する高品質なタグデータ」なのです。確かにこんな職人技のような気が滅入りそうな作業はGoogleなんかでも(余程メリットがない限り)やらないはずです。日本が世界に打ち出す作品のように、ハイコンテクストな映像作品ならなおさら単純なタグ付けだけでは作品を表現できないことは予想できます。(例えば、"スラムダンク"の最終シーンで花道とルカワのセリフ無しプレーがありますが、あのシーンで「セリフが無い」という描写が与える心理的インパクトと感動をどうやって機械は学習したら良いんでしょう、みたいな。)
で、結局その仕事でも「誰がタグ付けするの?」「マジでウン百の作品にタグ付けするの?」「そこまで人手費やして結果でなかったらどうするの?」と立ち往生し消え去りました。NetflixやPandora radioのようなタグ付けをビジネスとして行うには並々ならぬ(正気の沙汰とは思えない)執念と、失敗しても訴えないよという寛容さと、それに快く協力してくれるプロ集団が必要という、実は死ぬほど高いハードルがあるという思い出話でした。
P.S
クーガー石井さんの人工知能ネタに特化された個人ブログ。一次情報にきちんと当たってガチで書かれているブログだそうです。わかりやすくて面白いです。
「顔写真の代わりに靴の写真を撮らせてください」がディスニーのゲスト行動追跡のロジック?
オモシロすぎる。
テーマパーク内でのお客さんの行動を追跡していろいろな施策に結びつけようとする時、普通ならば入口ゲートで専用デバイス配って位置情報取ったり、お客さんのスマホの位置情報を使って把握しようとするだろうけど、ディスニー流ではお客さんが履いているクツで個人を識別して移動を追跡しようとしているらしい。
遊びにきたゲストにわざわざディズニーが用意したセンサー付きの靴にでも履き替えさせるのかと思ったら違った。
ゲストが来園すると、入り口に設置されたカメラとセンサーでシューズをスキャンします。その際には、シューズのデータに来園者の名前や居住地、関心のある内容などをデータベースに統合することで、ディスニーが目指す「個人ごとにテーラーメイドされたエクスペリエンスの提供」を実現するというシステムが構想されています。
マジか。各個人が履いてくる"自前の靴"をスキャンして個人特定し、園内行動を追跡するのか。顔写真取る代わりに靴で個人を識別すると。靴はさすがに重複が起こるよね。そんなこと出来るのか。。。
特許に載ってる画像を見る限り、靴+スネくらいの範囲を撮っているっぽいので、靴+パンツの組み合わせで1対1認識できるくらいバリエーションということなのかな。(特許文読んでない)
スマホで位置情報取るよりは余程技術レベル高いだろうから流石ディズニー。クツの写真ならさすがに「個人情報だろう!」と騒ぐ人はいないだろう。
どれくらい個人を識別できるのかだけが問題だけど、いやー、このアイデアすごくオモシロい!IoT的デバイスなんて無くて良いんだ!と目から鱗
チャットボットブームに想う
うーん、LOHACOのマナミさんを思い出した(と思ったらやっぱりやり玉にあげられていた)
これ(チャットボット)ホントに使い物になるのか、という思いはすごくあります。上記リンクで指摘されているように日本語はハイコンテクスト文化、つまり明文化(データ化)されない会話を行う国だしどうやってきちんと学習するんだろうと思ったり。だってウン十年生きていきた大人でさえ「あいつは空気読めない」と会話スキルに難癖つけられる国なんだもの。
自分の周りでも技術者の人達が「好奇心で」チャットボットを作っている印象。他の言語だったらもしかすると高度な会話を行えるボットができるかもだけど日本語はどうだろうなぁ。問い合わせの窓口があった場合に敢えて、「電話」でも「直接訪問」でも「メール」でもなくチャットボットが待機する窓口を選ぶシーンがまだ想像できない。そもそも日本なら「おもてなし」として「うちはチャットボットではなく24時間365日人間がチャットに即レスします!」みたいな方向に進みそう。
インターネット、空を飛ぶ
facebookの「どこでもインターネット」プロジェクトがアレヨアレヨといううちに実現しちゃいそうです。
先進国でこれ以上ネットの接続率や継続率をチクチク頑張って伸ばすよりも、ネット環境がない場所に低コストで導入しちゃえばドカンと新規ユーザーがゲットできちゃうじゃん!いうやつです。
本日このConnectivity Labは通信環境の問題を解決するための大きな一歩である、高高度で長距離飛行が可能な無人ソーラー飛行機Aquilaの本格的なテスト飛行に成功したことを発表しました。Aquilaは太陽発電搭載の航空機であり、遠隔地に住む何百万という人々に対して手頃な価格でインターネットを提供できるものです。
最終的にはAquilaは直径60マイルの地域に対して、高度60,000フィート以上の上空からその真下の空間に対してレーザー通信やミリ波システムを使ってインターネットへアクセスできる環境を作り出すことが可能です。
ビジョンもスゴイし、実際にテスト飛行も成功。あと驚くべきはその飛行コスト
最終的にはAquilaは直径60マイルの地域に対して、高度60,000フィート以上の上空からその真下の空間に対してレーザー通信やミリ波システムを使ってインターネットへアクセスできる環境を作り出すことが可能です。
日本のネット企業なら、その成功領域からなかなか出ることが出来ないですが、FacebookやGoogleはガンガン行きますね。ただ、日本のネット起業でもサイバーエージェントが動画メディアを作ったり、DeNAが配達や自動運転に頑張って取り組もう新しい領域に挑戦しています。頑張ってほしいな−
データビジュアライゼーション事例メモ
こちらのイベントに参加してきました。
トークで紹介されたビジュアライゼーション事例のリンクをペタペタ貼っておきます
リニアは日本をどれだけ狭くするのか? ~到達所要時間ビジュアライゼーションマップに挑戦~ - ビッグデータレポート - ヤフー株式会社
Yahooのビジュアライズといえばこの記事。東京駅を起点として日本全国にあらゆる交通機関を使って移動するとどれくらい時間がかかるかを超美麗に可視化した動画。百聞は一見にしかず。
沖縄戦時、どこでどれだけの人が亡くなったかをビジュアライズ。当時の状況のインタビューや動画記録なども掲載
Gay rights in the US, state by state | World news | theguardian.com
アメリカの各州におけるゲイの権利。結婚や養子縁組などの状態について色分けされている
Histography - Timeline of History
wikipediaに掲載されている歴史的出来事な記事をドットで表し、文学・音楽・政治などカテゴリーごと美麗にビジュライズ。wikipediaには読み切れないほどの膨大な記事があるが、それらを時系列かつインタラクティブに見せてくれる試みはシャレオツとしか言えない。動く様子を眺めるだけでも楽しい
多角形のたとえ話(Parable of the Polygons) - 多角形社会に関する自分で遊べる記事
とにかく見た目がかわいい。しかしテーマは真面目で「個人の小さな偏見が集まると、社会全体として大きな偏りとなってしまう」という話。お題が重いし殆どの人が真面目に考えたくないことなので敢えて可愛らしい絵でとっつきやすくしている。「どれぐらい個々人が多様性を受けいれられれば社会は分断されないか」をシュミレーションで見せてくれる
日経が出しているニュースビジュアライズページ。かなりの頻度で更新されていて個々の記事もシンプルかつ綺麗な図が散りばめられている。ニュースを数字で捕らられるしビジュアライズの勉強にもなる
NHKの「データジャーナリズムとWeb表現のポータルサイト」。"Web表現"と銘打つところと、報道メディアだけあってビビットでかつグリグリ動く図が多い印象。上記の日経のサイトとは趣が違う。個人的にはNHKのVRサイトがかなりアツい。
Battling Infectious Diseases in the 20th Century: The Impact of Vaccines - WSJ.com
Data Journalism Award 2015の優秀作品。20世紀の感染症とワクチンの戦いをビジュアライズ。ワクチンの圧倒的な効果がひと目でわかる。
道を選ぶ方法は「最短ルート」以外にも「静かなルート」「景色が綺麗なルート」を選べてもいいじゃない!というアイデアのビジュアライズ。
ポイントはどのように「静か」とか「景色が綺麗」を定義したかという点だが、人力と機械の合わせ技だそうです。
クラウドソーシングを利用して、Google Street ViewやGeographから取得した位置情報を持っているAとBの2つの写真を同時に見せ、どちらがより「美しく、幸せ」にみえるかを人間に選んでもらい、その結果をナビゲーション結果表示に利用する
機械的な処理としては、500万枚あるFlickr上の写真と、ポジネガ判定したそのコメント文を利用したそうです。人力要素が大きいのでルート作成出来る場所はかなり限られそうですが面白い試みだと感じます
日本語の紹介記事: 「最も美しい」や「最も楽しい」道順を提案する研究 | visualizing.jp
Market Music - The S&P 500 in Reggae - CNNMoney
S&P 500(日本で言うところの日経平均株価)の浮き沈みを音楽化したもの。"値(ね)が上がると音(ね)が上がる"的なことか。。。
強震モニタは、防災科研が全国の強震観測網の地震計で観測した今現在の揺れを、そのままに近いかたちで配信しているWebサービスです。
公的な期間が作ったものなので例によって見た目はアレだが、2秒毎に更新されているというすごいサイト。
Flightradar24.com - Live flight tracker!
世界中の飛行機が今どこを飛んでいるのかがリアルタイムでビジュアライズされたサイト。こんなサイトがあるなんてかなりびっくり。そして世界を飛ぶ飛行機の数にも...
Yahoo!地図アプリ iPhone版/Android版(無料) - Yahoo!地図
地図といえばGoogle mapでしょ...と思ってましたが、Yahooの地図には+αの機能がいろいろついていて、その中でも面白いのが「混雑レーダー」。混雑しているエリアを、混雑状況を色で表現するヒートマップで確認できるそう。花火イベントの日の混み具合も可視化しているらしい。
紹介記事: 花火大会の混雑回避に! Yahoo!地図アプリで会場周辺の『混雑レーダー』動画を配信中 - Yahoo!地図ブログ
DeNAがいろいろやってて気になる
ロボネコ、つまりドラえもんである(違う)
DeNAがヤマトと組んで配達効率化や自動運転も頑張る、という話。
「DeNA」で「自動運転」といえば先日のコチラ
PFDeNA爆誕!!! (かっこいいけど何も言っていないwebページ)
DeNAいろいろ楽しそうなことやってるなーというイメージ。(たった2記事の話ですが)
自動運転に関してはどれくらい本気か不明ですが、日本で「完全自動運転」となると技術的問題よりも法的な問題いろいろで10年はまだ先になりそう。法律が相手なので10年でも効かないかもしれない。
ヤマトの話では、自動運転頑張りますというよりは配達経路最適化とかがメインな気がします。いや、むしろヤマトはこれまでそういった専門会社と一緒になってやっていなかったのか。。。
しかし、配達の効率化については経路の最適化よりも実際にもっとも結果に影響しそうなところは全家庭にいい感じの「配達ボックス」を設置することではないだろうか。
盗難とか雨とか誰が配達ボックス代は誰がお金出すんだ、コストに見合うのかとか色々問題はあるんだろうけど、将来的にドローンや自動運転車が配達をするんだったらやはりセキュリティーばっちりの配達ボックスの設置が問題解決に最も効くんではないのかとずっと思っています。そんな簡単な話じゃない?