「第2回 Machine Learning 15minutes!」に参加したので印象的だった話メモ

7/23と少し前ですが、参加したイベントのメモ

印象的だった話を箇条書きで。

個人的には「動画を理解するAIエンジン」と「クリエイティブを創作するAI」の話が非常に興味深かったです

当日の会場の雰囲気はこちら

machine-learning15minutes.connpass.com

イタンジ株式会社の高橋さんから、自社のネット不動産サービス（nomad）で動いているチャットボットの自動返信について。

チャットボットの自動返信について from kenzotakahashi2

www.slideshare.net

webに掲載している不動産についての質問はチャットで受け付けている
成約までにお客さんとの間に平均80回チャットが行われる。その手間をチャットボットで減らしたい
ボットで対応できない処理は人間オペレータが対応。そのチャットデータもボットへの学習データとして食わせる
メッセージの処理はシンプル
「。」「！」「？」などで文書分解。Janomeで形態素解析。KerasのLSTMに突っ込んでメッセージ種類を判別。質問の種類を300くらいに分ける（ex. ペットに関する質問etc）。認識した質問に対して返信メッセージを作成する。
精度は80%ほどだが、挨拶などへの返答などを除くと実際の精度は4割ほど。
直前のメッセージだけをみて質問の種類300くらいから当てるのは困難
返答したメッセージに対する質問などをされるとツライ
物件の確認など、人間が介する仕事はどうしても無理なのでAIと人間のハイブリットで頑張る

チャットボットの詳しい内容に関しては以下のブログ記事参照

tech.itandi.co.jp

クーガー株式会社　石井さんから「動画を理解するAIエンジン及びAI学習シミュレーターについて」

動画を理解するAIエンジン及びAI学習シミュレーター from Atsushi Ishii

www.slideshare.net

youtubeの動画を読みこませると、その動画に今なにが映っているかを確率表示で返す（このAIエンジンは現在公開されていないっぽい）
風景などのシーンの認識精度は高いっぽい
マリオのクリボーなどは「動物」と判定される。しかし小さな子どもに「クリボー」を見せると同じく「動物」と認識するので機械がそう認識してもまあおかしなことはない
機械が動画に映っているものを認識できると何が嬉しいのか？-> 動画に対して明示的なタグ情報無しに「検索」がかけられるようになる
応用分野-> スポーツの試合動画で「シュートシーン」をピンポイントで検索する。キャラクターの検索。（タグ情報無しで）特定出演者の動画検索などなど
さらに、「動画に何が映っているか」の技術はそのまま自動運転への応用に発展できる。
自動運転させるために様々な事前情報（高精度な地図データや、さまざまな周辺環境への自己適応など）を学習させておくが、例えば、「渋谷のハロウィンイベント」など超特異的に発生する環境には対応しきれない。
そういった状況には「現在何がカメラ内に写り込んでいるか」を認識し正しく自身の周辺環境を認識する技術が必要。「動画の理解」はそういった領域にも貢献できる

株式会社AOI Pro.の佐々木さんから「感情・気分はAIで作れるか？CreativeGenomeのご紹介」

https://www.slideshare.net/secret/nNNvgxeNpwJ0l0

AOI pro.はCMや映画・ドラマ・web・スマホ動画など「クリエイティブ」を作る会社
クリエイティブは非常に「ハイコンテクスト」なモノ。気分に訴えかけるもの。AIにも人間並みのクリエイティブを作ることはできるか？
クリエイティブAIの例。絵画を書くAI、映画のコマを先読みをするAI、映像コンテンツの高度な推薦（netflix）、音楽の網羅的なタグ化・DB化（Pandora Radio）、小説を生成するAIなど。
上記の共通点、「プロの目によるクリエイティブへのタグ付け」 -> データ化を行う。とにかく一度要素分解し、データにする。
タグ付け（データ化）するだけで本当にAIはクリエイティブ領域に本質的に資するか？ -> とりあえずやってみる
プロの目によるクリエイティブへのタグ付けとして、TVCMを対象に実施（Creative Genome Project）。コンセプト、UX、手法、トーン、テンション、モデルなど"CMの作り手視点で"詳細なタグをつけていく
詳細タグをベースにクリエイティブの関係性を分析してみるといろいろ面白いことがわかった（詳細はブラインド）
GoogleやAmazonはこういった「クリエイティブを作るプラットフォーム」はやらないだろうからチャンスがある

感想

「機械に動画を理解させる」=>「自動運転へ応用」というクーガー石井さんの話はアカデミックな意味でも面白かったです。

ただ、気持ちを揺さぶられたのはクリエイティブAIの佐々木さんのお話でした。

というのは、実は自分も仕事で某社の「動画コンテンツ」の分析を行ったことがあったからです。

当時も、動画を分析するためにはNetflixのように詳細なタグ付けが必要だということになり先方にもタグ付け協力を仰いだのですがやはりお忙しい身のため「我々は無理だ。タグ付けは機械で出来ないのか？」という話になりました。

動画をどのように分析したいのかにもよると思いますが、やはり詳細に分類されたタグを動画に紐付けることで初めて分析が出来る、というのがこの分野のスタンダードなアイデアになっていると思います。

この辺りは意を決して人間と時間と労力をぶっ込んでヒイヒイ言いながらタグ付与していくしかなさそうです。その代わり、完成したデータは唯一無二の絶対的な貴重なデータとなります。こんなところにも「泥臭い作業こそが求められる」というスポ根チックな現実が転がっています。

「そんなのクラウドソーシングに投げれば良いのに」と思われる人もいると思いますが、単純な画像の仕分けなどはそれでもいいとして、ここで欲しいのは「専門家によって超詳細に分類する高品質なタグデータ」なのです。確かにこんな職人技のような気が滅入りそうな作業はGoogleなんかでも（余程メリットがない限り）やらないはずです。日本が世界に打ち出す作品のように、ハイコンテクストな映像作品ならなおさら単純なタグ付けだけでは作品を表現できないことは予想できます。（例えば、"スラムダンク"の最終シーンで花道とルカワのセリフ無しプレーがありますが、あのシーンで「セリフが無い」という描写が与える心理的インパクトと感動をどうやって機械は学習したら良いんでしょう、みたいな。）

で、結局その仕事でも「誰がタグ付けするの？」「マジでウン百の作品にタグ付けするの？」「そこまで人手費やして結果でなかったらどうするの？」と立ち往生し消え去りました。NetflixやPandora radioのようなタグ付けをビジネスとして行うには並々ならぬ（正気の沙汰とは思えない）執念と、失敗しても訴えないよという寛容さと、それに快く協力してくれるプロ集団が必要という、実は死ぬほど高いハードルがあるという思い出話でした。

P.S

クーガー石井さんの人工知能ネタに特化された個人ブログ。一次情報にきちんと当たってガチで書かれているブログだそうです。わかりやすくて面白いです。