読者です 読者をやめる 読者になる 読者になる

データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

噂の「TensorFlowでキュウリの仕分けを行うマシン」がMFT2016に展示されていたので実物を見てきた

 

個人的には最近聞いた話の中でひさびさにワクワクした話。

「医療」「教育」「農業」のようなIT未開の分野に黙々と取り組んでいる人達はヒーローに見える

Google Cloud Platform Japan 公式ブログ: キュウリ農家とディープラーニングをつなぐ TensorFlow

約三行要約

  • エンジニア職だった方が実家のキュウリ農場でtensorflowを使った自動の「キュウリの品質仕分け機」を自作している
  • 家族(仕分け担当はお母さん)が9段階に仕分けしたキュウリを撮影し学習用画像データ(80×80px)としている。画像7000枚分。
  • 収穫のピーク時には一日 8 時間ずっと仕分け作業に追われる。それを自動化したい。
  • Web カメラによる画像撮影は Raspberry Pi 3 で制御し、そこで TensorFlow による小規模なニューラルネットによってキュウリのあり・なしを判断
  • 学習と計算は外部サーバーを使わず自宅のwindowsデスクトップPC1台(中身はLinux)で行っている。学習完了まで2〜3日かかる。
  • キュウリ画像の認識にはTensorFlow の「Deep MNIST for Experts」をベースに、若干手を加えたディープニューラルネットワークを用いている
  • test画像データでの精度は95%。本番データでは精度約70%ほど。


そしてこちらの自作マシンと作者の方が8月6,7日に東京ビックサイトで行われていたMaker Fair Tokyo 2016に参加されるということで行って少しだけお話を聞きました。

頂いた名刺の肩書(?)が「きゅうり農家/組み込みエンジニア」 となっていてシビれる。

 

会場でお聞きしたこと

  • ブログなどで製作工程をいろいろ書いていたらgoogleから連絡がきて上記の記事が作られた
  • 当初、キュウリ仕分け担当のお母さんは「そんなものでほんとにできるの?」と半信半疑だったそう
  • 学習用の7000枚のデータはGitHubで公開中(!)いろいろ触ってみてくださいとのこと
  • (学習用画像のクオリティー向上のため)写真を撮影するステージの光の当て方など試行錯誤中。識別部分の詳細ブログ
  • 例えば1時間1000円時給×8時間×作業日数を考えるとGCPなどの計算サーバを使用してもペイできそうではある
  • この仕分け機は8万円ぐらいで作ってる。そのうち数万はモニーター代(DIYあるある...)(そしてモニターは必須ではない。展示用らしい)
  • 細かなリンク部品などは3Dプリンターを使って印刷
  • 個人農家はみんな家(家族)で人力仕分けしているのでこういった安価な仕分け機はニーズがあるのでは
  • 現状以上に画素数などを上げるとどれほど学習コストがあがるかはまだ検証していない
  • もっと効果的に学習できる方法はないか検討中
  • (現状では)キュウリ一本の判別に3秒ほどかかってそうな感じ(以下動画参照)
  • まだ試作機2号。絶賛改良中
  • twitterブログで開発記を発信中


▲キュウリの「上」「下」「横」から撮影して判定

▲会場で再生されていたデモ(?)

 

個人的感想

お話を聞いて、そしてこれまでの仕分けの成果を考えると、もう少し試行錯誤すれば間違いなく人並み(お母さん並)の識別能力を得られるのだろうと思う。というより、"試行錯誤"しなくても、ぶっちゃけ学習用画像データのピクセル数を上げてGCPサーバーで大量にぶん回せば現在の約7割の精度はあっという間に100%に近い精度に上がるのだろう。

ただ、常にこういった技術の話で見失ってはいけないのは「目的は何か?」と「掛けられるコスト(時間・お金・人手)はどれほどか」ということ。

お話してみても、ブログを読んでみてもわかるように作者の方は技術に良く精通されている方なので物理で殴れば簡単に精度を向上できることは十二分に理解されている。つまり、真に難しいのは「キュウリ農家としてどこまでやるべきか」ということ。

実際に動いているところを見れて本当にエキサイティングだったし、「技術はなんのために使うか」を考えさせられる良い時間でした。猛暑のなか行ってよかった。

まぁ、つまり、一言で言うと、

かっこよすぎる

 

作者さんブログ: 

Workpiles | We work smart, we work rapidly, we keep working!

 

ディープラーニングの技術記事なのに最初の小見出しが「キュウリの仕分けとは」で始まる秀逸な記事

TensorFlowでディープラーニングによる『キュウリ』の仕分け | Workpiles

 

twitter

twitter.com

公開されている学習用データ:

github.com

 

(追記)

この記事を書いたのと同じ日にすでに上記のデータセット使って遊んでいる人がいた...データをオープンにする価値はすごい

qiita.com

「k-meansの最適なクラスター数を調べる方法」を書きました

会社の勉強会ネタとして以下の記事を書きました

qiita.com

 

この記事を書くきっかけになったのは以下の記事です

mercan.mercari.com

この記事では、デモグラ情報を持っていないユーザーを対象に、各ユーザの時間帯別のアクセス量を元にユーザをクラスタリングすることで属性推定を行う、という話でした。(シンプルなのに面白いので未読の人はオススメです)

 

ちょうど担当している案件でも、デモグラ情報を持っていないユーザのアクセスデータがたくさんあったのでやってみようと思ったのですが、そこでお馴染みの「k-meansのk数どうするの問題」に遭遇したことで調べ物した内容をまとめた記事になってます。

誰かのお役に立てれば :)

 

 

医療AI、爆誕!!!

人工知能」と名の着くニュースはまず疑え。 と...わかってはいるんだがテンションがあがる。

www3.nhk.or.jp

女性患者の1500に上る遺伝子の変化のデータを人工知能に入力し分析したところ、人工知能は10分ほどで女性が「二次性白血病」という別のがんにかかっていることを見抜き、抗がん剤の種類を変えるよう提案したということです。 

単純に、論文を大量に読み込ませて自然言語処理させて治療法案のレコメンドを提示しただけかと思ったら、遺伝子情報をインプットデータにして分析っぽいことまでしてる... そんな高度なこともう出来るようになってたの...

(実際に"じんこーちのう"が何をおこなっているのかは全く謎だけど)

まさか、「人工知能」と「ヘルスケア」タグを同時に付ける記事をとうとう書いてしまうとは。。。

 

医療用人工知能が超膨大な情報を元に機械学習で出す治療案はすでに人間には「なぜそれが良いのか」理解できない。反対に、人間の医師はコミュニケーションを通じて(その医師の技量に依存してしまうが)納得感のある治療を行ってくれる。


最近お気に入りの漫画「AIの遺電子」の診察シーンにも、

私(医師)が行った検査では異常が見つからない。
なので"超高度AI医療"の受診をおすすめする。
ただしAIが施した治療は人にはなかなか理解が難しい。もし人の手による解決を望まれるなら別の医者を紹介する

というようなセリフがある。

これはまさに未来の「診断結果あるある」になりそう。


未来の医療がすべてAIに取って代わられるわけではなく、「人の手によるコミュニケーションを通じた治療」を望む人もきっとたくさんいる。


上記のリンクのインタビュー動画でも患者の女性が、"先生と人工知能にダブルでお墨付きをもらったような安心感があった"と話されている。


未来の医療は「人(人間の医師)による安心感・納得感」と「AIによる科学の結晶」を患者がシーン別に選択して治療を受けるスタイルになることは間違いない。

 

AIの遺電子 1 (少年チャンピオン・コミックス)

AIの遺電子 1 (少年チャンピオン・コミックス)

 
AIの遺電子 2 (少年チャンピオン・コミックス)

AIの遺電子 2 (少年チャンピオン・コミックス)

 

 

 

ハードウェアベンチャーのトークイベントに参加したので印象的だった話メモ

7月30日に参加したイベントの参加メモ

全自動洗濯物折り畳み機(ランドロイド)、Moff Band、アクティビティー中でも快適に会話できるウェアラブルトランシーバー『BONX』。どこかしらかで聞いたことがあるようなプロダクトばかりだったので気になってました。特にランドロイド!!!

slogan-tech.connpass.com

 

セブン・ドリーマーズ・ラボラトリーズ株式会社のランドロイド

2014年7月に「世の中にないモノを創り出す技能集団」として設立されたセブン・ドリーマーズ・ラボラトリーズ株式会社。全自動洗濯物折り畳み機(ランドロイド)を発表し、世界中の家電業界に大きな衝撃を与えた。

seven dreamers laboratories セブンドリーマーズ

「世の中にないもの・人々の生活を豊かにするもの・技術的にハードルが高いもの」 に狙いを定めて製品化されているそうです。「技術的にハードルが高いもの」が入るところに技術会社っぽさを感じてかっこよいです。

ビジネスドメインとしては

  • 完全フルオーダーメイドのカーボンシャフトゴルフクラブ
  • 無呼吸・いびきを治す医療機器
  • そして全自動洗濯物折り畳み機「ランドロイド」

を展開しているそうです。3つが全く関係なさそうなところが面白い

特にランドロイドですが、日本人が「洗濯」というタスクに一生で費やす時間は375日に相当するそうです。これを機械化できればかなりの時間を捻出できるというのがランドロイドの存在意義だそうです

laundroid.sevendreamers.com

ランドロイド普及へのマイルストンとしては

  • 2018年 介護福祉施設や病院など向けに販売
  • 2019年 一般家庭向け(洗って乾かして畳むところをまでを行う)
  • 2020年 ランドロイドが標準で家に備え付けられるようになる。クローゼットにしまうところまでシステム化したスマートハウスを目指す

このマイルストン達成に向けて、洗濯機のノウハウがあるパナソニックと、スマートハウスを推進するダイワハウスと協力してジョイントベンチャーも設立されています。

ランドロイドは2015年のSEATECで初めてお披露目されましたが、なんとランドロイドの開発は10年も続いていたそうです。かなりチャレンジングな製品に10年も投資し続ける熱意...

SEATECに登場した当時はネットでもかなりバズっていた記憶があります

news.mynavi.jp

 

で、分析官的には興味があるのが、『ランドロイドがどうやって服の種類を認識(画像認識)して綺麗に畳む処理(服のどこを掴んでどういうふうに畳むとシワができないか)を実行しているのか』、そしてそれを実現しているロボティクス部分ですね。

トークをされた方にその辺を質問してみましたが、しかし当然ながら企業秘密で一切ノーヒントでした。

www.youtube.com

(こちらのSEATECのデモ動画でも洗濯物認識部分はほぼモザイクで隠されています)

ただ、やはりあらゆる種類の服の形を教師データとして作成されているそうです。女性物の服とか、どこに手を入れて首を出すのか難しそうなものもありますが、どこまで教師データを揃えると良い制度で畳めるんでしょうね。気になります。

あと、畳んでもやはりシワは出来てそうだから、もういっそアイロンもかけちゃって欲しいですね。

正直、「二度手間が発生しない程度まですべての服をきちんと畳んでくれるか」はかなり懐疑的で、それが発売されたとしてみんな買うかは謎ですが、チャレンジングな分野への挑戦として応援しています

 

ウェアラブルバンドのMoff

2014年にウェアラブルバイス「Moff Band」をリリース。センシング技術・ソフトウェア・クラウドを活用して、コンピューターが人間にとって自然に使用できる環境を実現するデバイスの企画・製造・販売を行う。

Moff(モフ)- 想像力豊かで新しい遊び

子供向けの活動量測定ウェアラブルバンドだそうです。

『1ハードウェアに1機能では拡張性が小さすぎる』『1ハードウェアで多様なユースケースに対応する』ことにかなり注力されているそうです。

現在はモーションデータしか取れないそうです。多様なユースケースに対応するインターフェイスSDKを拡張していくそうです。

 

ウェアラブルトランシーバー BONX

スノーボード中にコミュニケーションを取ることができるウェアラブルトランシーバー『BONX』を開発。人の声だけを認知する発話検知のソフトウェア技術と、風切音などのノイズを低減するハードウェア技術の高度な統合を実現している。

BONX-ウェアラブルトランシーバー- オフィシャルサイト

ウェアラブルトランシーバー」って何だという感じですが、アクティビティー中の通話に特化した高機能なマイク付きイヤフォンという感じ?でした。しかし聞いてみるとなかなか痒いところに手が届く機能っぽい

bonx.co

  • 専用スマートフォンアプリとBluetoothデュアルモードで接続
  • 話しているときだけ通信する独自のグループ同時通話システム
    (10人同時通話可能)
  • 電波の弱い環境での切断や遅延を抑制
  • あなたの声を検知して自動で通信する完全ハンズフリーモードを搭載
  • 携帯電波を使うため通信距離の制限は一切なし
  • マルチレイヤーでの騒音・風切り音対策によるクリアな音声を実現(デュアルマイク搭載・防水音響フィルター内蔵)
  • 水や衝撃に強く、快適な装着性で長く使える
  • ノーマルモードや会話中の音楽再生など、一人一人にあった楽しみ方を提供 

 つまり、例えばスノボを複数人でやっていても仲間内で会話ができる。かつ風切音などのノイズも消してくれる。通話した瞬間だけ起動・通信利用なので電力的な消費も少ない とのことらしいです。デバイスの設計理念や完成度もかなり高い印象で、実際にクラウドファウンディングでは2500万の寄付をゲットしています。

純粋なアウトドアイヤフォンというだけでなく、補聴器なども含む広いマーケットをビジネス対象としているそうです。

話し声以外のノイズをキャンセルするためには、ノイズの波形のタイムシーズを伸ばして判定させると精度が上がりはするが、そのあいだ音をバッファーしているため通話に遅延が発生してしまうというトレードオフの問題解決が難しいそうです。ウェアラブル端末なので「リアルタイム性」をまず担保しつつ、利用の快適さも損ねないという技術バランスは非常に難しそうです。

あと、ちょっと気になって質問してみましたが、接続して常時専用アプリが立ち上がっているスマホ側のバッテリーもたくさんは食わないそうです。

トークされていいた開発者の方の開発熱意も伝わってくる応援したくなるデバイスでした。

 

感想

IoT/新規のハードウェアが生み出すデータはどんなものがあるのか、なにか分析官が関与できる分析的課題はあるのかと思って聞いていましたが、どちらかというとまだハードウェアの性能をあげるための試行錯誤があるという印象でした。

ただ、ランドロイドの画像認識やBONXのノイズ除去など、高度なデータ活用がモノをいいそうな技術的課題もたしかに存在するようです。そういった問題には、大企業を辞めてベンチャーでジョインした少数精鋭の高度な技術者・分析者が取り組んでいる様子が少し聞けました。

IoTが叫ばれて久しいですが、そういった新規のデバイスが生み出す爆発的な量のデータを使ってビジネスをするベンチャー企業はまだまだ先のようです。

「第2回 Machine Learning 15minutes!」 に参加したので印象的だった話メモ

7/23と少し前ですが、参加したイベントのメモ

印象的だった話を箇条書きで。

個人的には「動画を理解するAIエンジン」と「クリエイティブを創作するAI」の話が非常に興味深かったです

当日の会場の雰囲気はこちら

machine-learning15minutes.connpass.com

 

イタンジ株式会社の高橋さんから、自社のネット不動産サービス(nomad)で動いているチャットボットの自動返信について。

www.slideshare.net

  • webに掲載している不動産についての質問はチャットで受け付けている
  • 成約までにお客さんとの間に平均80回チャットが行われる。その手間をチャットボットで減らしたい
  • ボットで対応できない処理は人間オペレータが対応。そのチャットデータもボットへの学習データとして食わせる
  • メッセージの処理はシンプル
  • 「。」「!」「?」などで文書分解。Janome形態素解析。KerasのLSTMに突っ込んでメッセージ種類を判別。質問の種類を300くらいに分ける(ex. ペットに関する質問etc)。認識した質問に対して返信メッセージを作成する。
  • 精度は80%ほどだが、挨拶などへの返答などを除くと実際の精度は4割ほど。
  • 直前のメッセージだけをみて質問の種類300くらいから当てるのは困難
  • 返答したメッセージに対する質問などをされるとツライ
  • 物件の確認など、人間が介する仕事はどうしても無理なのでAIと人間のハイブリットで頑張る

チャットボットの詳しい内容に関しては以下のブログ記事参照

tech.itandi.co.jp

 

 

クーガー株式会社 石井さんから「動画を理解するAIエンジン及びAI学習シミュレーターについて」

www.slideshare.net

 

  • youtubeの動画を読みこませると、その動画に今なにが映っているかを確率表示で返す(このAIエンジンは現在公開されていないっぽい)
  • 風景などのシーンの認識精度は高いっぽい
  • マリオのクリボーなどは「動物」と判定される。しかし小さな子どもに「クリボー」を見せると同じく「動物」と認識するので機械がそう認識してもまあおかしなことはない
  • 機械が動画に映っているものを認識できると何が嬉しいのか?-> 動画に対して明示的なタグ情報無しに「検索」がかけられるようになる
  • 応用分野-> スポーツの試合動画で「シュートシーン」をピンポイントで検索する。キャラクターの検索。(タグ情報無しで)特定出演者の動画検索などなど
  • さらに、「動画に何が映っているか」の技術はそのまま自動運転への応用に発展できる。
  • 自動運転させるために様々な事前情報(高精度な地図データや、さまざまな周辺環境への自己適応など)を学習させておくが、例えば、「渋谷のハロウィンイベント」など超特異的に発生する環境には対応しきれない。
  • そういった状況には「現在何がカメラ内に写り込んでいるか」を認識し正しく自身の周辺環境を認識する技術が必要。「動画の理解」はそういった領域にも貢献できる

 

株式会社AOI Pro.の佐々木さんから「感情・気分はAIで作れるか?CreativeGenomeのご紹介」

https://www.slideshare.net/secret/nNNvgxeNpwJ0l0

  • AOI pro.はCMや映画・ドラマ・web・スマホ動画など「クリエイティブ」を作る会社
  • クリエイティブは非常に「ハイコンテクスト」なモノ。気分に訴えかけるもの。AIにも人間並みのクリエイティブを作ることはできるか?
  • クリエイティブAIの例。絵画を書くAI、映画のコマを先読みをするAI、映像コンテンツの高度な推薦(netflix)、音楽の網羅的なタグ化・DB化(Pandora Radio)、小説を生成するAIなど。
  • 上記の共通点、「プロの目によるクリエイティブへのタグ付け」 -> データ化を行う。とにかく一度要素分解し、データにする。
  • タグ付け(データ化)するだけで本当にAIはクリエイティブ領域に本質的に資するか? -> とりあえずやってみる
  • プロの目によるクリエイティブへのタグ付けとして、TVCMを対象に実施(Creative Genome Project)。コンセプト、UX、手法、トーン、テンション、モデルなど"CMの作り手視点で"詳細なタグをつけていく
  • 詳細タグをベースにクリエイティブの関係性を分析してみるといろいろ面白いことがわかった(詳細はブラインド)
  • GoogleAmazonはこういった「クリエイティブを作るプラットフォーム」はやらないだろうからチャンスがある

 

感想

「機械に動画を理解させる」=>「自動運転へ応用」というクーガー石井さんの話はアカデミックな意味でも面白かったです。

ただ、気持ちを揺さぶられたのはクリエイティブAIの佐々木さんのお話でした。

というのは、実は自分も仕事で某社の「動画コンテンツ」の分析を行ったことがあったからです。

当時も、動画を分析するためにはNetflixのように詳細なタグ付けが必要だということになり先方にもタグ付け協力を仰いだのですがやはりお忙しい身のため「我々は無理だ。タグ付けは機械で出来ないのか?」という話になりました。

動画をどのように分析したいのかにもよると思いますが、やはり詳細に分類されたタグを動画に紐付けることで初めて分析が出来る、というのがこの分野のスタンダードなアイデアになっていると思います。

この辺りは意を決して人間と時間と労力をぶっ込んでヒイヒイ言いながらタグ付与していくしかなさそうです。その代わり、完成したデータは唯一無二の絶対的な貴重なデータとなります。こんなところにも「泥臭い作業こそが求められる」というスポ根チックな現実が転がっています。

「そんなのクラウドソーシングに投げれば良いのに」と思われる人もいると思いますが、単純な画像の仕分けなどはそれでもいいとして、ここで欲しいのは「専門家によって超詳細に分類する高品質なタグデータ」なのです。確かにこんな職人技のような気が滅入りそうな作業はGoogleなんかでも(余程メリットがない限り)やらないはずです。日本が世界に打ち出す作品のように、ハイコンテクストな映像作品ならなおさら単純なタグ付けだけでは作品を表現できないことは予想できます。(例えば、"スラムダンク"の最終シーンで花道とルカワのセリフ無しプレーがありますが、あのシーンで「セリフが無い」という描写が与える心理的インパクトと感動をどうやって機械は学習したら良いんでしょう、みたいな。)

 

で、結局その仕事でも「誰がタグ付けするの?」「マジでウン百の作品にタグ付けするの?」「そこまで人手費やして結果でなかったらどうするの?」と立ち往生し消え去りました。NetflixやPandora radioのようなタグ付けをビジネスとして行うには並々ならぬ(正気の沙汰とは思えない)執念と、失敗しても訴えないよという寛容さと、それに快く協力してくれるプロ集団が必要という、実は死ぬほど高いハードルがあるという思い出話でした。

 

P.S

クーガー石井さんの人工知能ネタに特化された個人ブログ。一次情報にきちんと当たってガチで書かれているブログだそうです。わかりやすくて面白いです。

 

「顔写真の代わりに靴の写真を撮らせてください」がディスニーのゲスト行動追跡のロジック?

オモシロすぎる。

gigazine.net

テーマパーク内でのお客さんの行動を追跡していろいろな施策に結びつけようとする時、普通ならば入口ゲートで専用デバイス配って位置情報取ったり、お客さんのスマホの位置情報を使って把握しようとするだろうけど、ディスニー流ではお客さんが履いているクツで個人を識別して移動を追跡しようとしているらしい。

遊びにきたゲストにわざわざディズニーが用意したセンサー付きの靴にでも履き替えさせるのかと思ったら違った。

ゲストが来園すると、入り口に設置されたカメラとセンサーでシューズをスキャンします。その際には、シューズのデータに来園者の名前や居住地、関心のある内容などをデータベースに統合することで、ディスニーが目指す「個人ごとにテーラーメイドされたエクスペリエンスの提供」を実現するというシステムが構想されています。 

マジか。各個人が履いてくる"自前の靴"をスキャンして個人特定し、園内行動を追跡するのか。顔写真取る代わりに靴で個人を識別すると。靴はさすがに重複が起こるよね。そんなこと出来るのか。。。


特許に載ってる画像を見る限り、靴+スネくらいの範囲を撮っているっぽいので、靴+パンツの組み合わせで1対1認識できるくらいバリエーションということなのかな。(特許文読んでない)

スマホで位置情報取るよりは余程技術レベル高いだろうから流石ディズニー。クツの写真ならさすがに「個人情報だろう!」と騒ぐ人はいないだろう。

どれくらい個人を識別できるのかだけが問題だけど、いやー、このアイデアすごくオモシロい!IoT的デバイスなんて無くて良いんだ!と目から鱗

 

チャットボットブームに想う

anond.hatelabo.jp

うーん、LOHACOのマナミさんを思い出した(と思ったらやっぱりやり玉にあげられていた)

kskbyt.hatenablog.jp

これ(チャットボット)ホントに使い物になるのか、という思いはすごくあります。上記リンクで指摘されているように日本語はハイコンテクスト文化、つまり明文化(データ化)されない会話を行う国だしどうやってきちんと学習するんだろうと思ったり。だってウン十年生きていきた大人でさえ「あいつは空気読めない」と会話スキルに難癖つけられる国なんだもの。

自分の周りでも技術者の人達が「好奇心で」チャットボットを作っている印象。他の言語だったらもしかすると高度な会話を行えるボットができるかもだけど日本語はどうだろうなぁ。問い合わせの窓口があった場合に敢えて、「電話」でも「直接訪問」でも「メール」でもなくチャットボットが待機する窓口を選ぶシーンがまだ想像できない。そもそも日本なら「おもてなし」として「うちはチャットボットではなく24時間365日人間がチャットに即レスします!」みたいな方向に進みそう。