データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

キュウリの次は「岩盤の硬さ」 TensorFlowでトンネル岩盤評価!

前回の「TensorFlowでキュウリ識別」に続く大好物系のお話。 今度はまさかの土木業界!

itpro.nikkeibp.co.jp 

概要

  • 中堅ゼネコンの「安藤ハザマ」がtensorflowを使ってトンネル堀り中の切削断面を判断。地質評価に活かす。
  • トンネルを掘り進めたときにできる切削断面の画像と、発破をかけた時に生じる弾性波速度データ(衝撃波みたいなもの?)を元に深層学習し、「岩盤の硬さ」を判定させる
  • 地質専門家が現場にいなくても、品質や追加工事の必要性などを判断できるようにするのが目標
  • 識別精度は、地盤の硬さの3分類法では86.7%の精度、より細かく分類する10分類法での56.5%


詳細要約

  • 平坦な土地でのボーリングによる地質調査とは異なり、トンネル工事では横方向に掘り進めると地質が変化するという難しさがある
  • そのため、地質専門家が現場に出向き切削現場の環境を総合的に判断し「岩盤の硬さ」を評価。発破などを判断材料にする。
  • そういった専門家は出張の年間頻度がかなり高く大変。機械に置き換えたいというニーズあり
  • トンネル工事現場では1日1回、数メートル掘削が進むたびに切削断面の写真を撮影し、進捗管理として記録していた
  • さらに地盤強度の指標の一つである「弾性波速度」を測定している
  • 安藤ハザマは発破と同時にその衝撃から生じる弾性波速度を精密に算出する「TFT探査」という技術で強みを持つ
  • (ちなみに、専門家ならTFT探査をしなくても切削断面を観察するだけで弾性波速度を推定できる(ドヤ))
  • 肝心の識別精度は、地盤の硬さの3分類法では86.7%の精度、より細かく分類する10分類法での56.5%
  • 画像の撮影は一般的なデジカメで撮影
  • なので、鮮明に写っているものもあれば、暗く写っているものもある
  • しかし「色は思ったほど精度に影響せず、形状で判定されているようだ」
  • また、画像データだけでは「温泉の熱の影響で軟弱になっている地質」などを正確に判定できない、などの課題もある
  • とある現場では、鮮明な画像を撮れる「ハイパースペクトルカメラ」を導入してみた
  • 今後、複数の現場からネットワーク経由で切削断面の写真を集約・蓄積する仕組みを整え学習精度を上げたい
  • 「2017年3月末をメドに、工事現場で運用を始められる段階に持っていきたい」

 

以前書いた「TensorFlowでキュウリ識別」もエキサイティングだったけど、土木現場での活用事例は思いもよらなかったので非常に面白い。機械学習とは縁遠そうな分野にいきなりぶっこんでくる系は最高にかっこいい。

kskbyt.hatenablog.jp

 

(追記)

土木系では他にこんなのもあるよとSNSコメントで教えてもらった話。

Droneで建設現場の空撮画像を撮影・分析し、空撮画像と設計図とを比較して進捗状況を確認したり建設ミスやエラーを発見することができるサービスがシリコンバレーベンチャーから提供されているそうです

www.slideshare.net

日本語記事はこちら

techable.jp

2016.9.19週にチェックした記事

 

分析・機械学習・深層学習

  1. Googleがめざす、誰もが使える機械学習 https://speakerdeck.com/kazunori279/googlegamezasu-shui-mogashi-eruji-jie-xue-xi

  2. アクセス解析なんてもう人間がやる仕事ではない|Google Analyticsの本気。AIによる無料アドバイス機能『Analytics Assisitant』の衝撃 - BITA デジマラボ https://bita.jp/dml/gaassistant @BITA_DMLさんから

  3. こんなところにも深層学習が活躍|情報化施工:トンネル切羽の地質評価、人工知能で自動化 - スマートジャパン http://www.itmedia.co.jp/smartjapan/articles/1609/21/news026.html

  4. Ipython notebook形式で公開されている分析例のキュレーションページ。面白い。|A gallery of interesting IPython Notebooks https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks

  5. 深層学習の精度を(ほぼ)落とさずに必要となる計算リソースを減らす技術を作るスタートアップ。地味だけど重要。かっこいい|低消費電力の深層学習で新分野開拓、日本のLeapMindがシリーズAで3.4億円の資金調達 http://jp.techcrunch.com/2016/08/24/leapmind-raises-340m-yen/

  6. ヘルスケアネタ|腸内細菌:数千人分DB化 多様な病気との関連解明へ - 毎日新聞 http://mainichi.jp/articles/20160923/k00/00m/040/125000c

  7. なにげに貴重なデータ。面白い。|幼児の勘違い、防災のヒントに 幼稚園が27年記録:朝日新聞デジタル http://www.asahi.com/articles/ASJ977JNMJ97UTFL00T.html

IoT・デバイ

  1. 昔、血液検査キットを見せてもらって、それから2年ほどでトイレセンサーになってた。すごい|「トイレビッグデータ」で生活習慣病を早期発見 http://buff.ly/2dfemf7

  2. Amazonの荷物だけでも正確に知りたい...|郵便物が投函されるとスマホに通知!荷物の大きさや個数、送り主まで識別する「Mail Beacon」 | Techable(テッカブル) http://techable.jp/archives/47067 @TechableJpさんから

  3. Withingsの新型ウォッチ!AppleWatchよりもこっちが欲しい|Withingsが心拍を測定できるアナログ時計型スマートウオッチ『Steel HR』を発表 http://dime.jp/genre/292790/ @DIME_HACKSさんから

メディアアート

  1. Perfumeの演出が最先端過ぎる|https://twitter.com/piklr/status/777797470164168704

サービス

  1. 新機能も続々と。爆速で進化するGitHubのすべて、この1記事でざっくりキャッチアップ【GitHub Universe 2016レポ】http://type.jp/et/feature/1626

雑学

  1. このネタみんな好きですね|「くまモン」デザイナーに発注のロゴ540万円は高すぎ? 「30万円が適切」奈良の住民訴訟に批判も http://www.huffingtonpost.jp/2016/09/22/is-the-nara-logo-design-too-expensive-_n_12130574.html @HuffPostJapanさんから

  2. このロゴ、2500万だったんか…しかも結構昔の時代の話だよね…|NTTのロゴの制作代金は亀倉雄作さんが2500万円で作ったそうですが https://twitter.com/nerunodaisuki/status/779166679355973634

  3. rebuildで知ったruiさんのスタンフォード大学入学1日目の話|初日 https://stanfordmscs.blogspot.com/2016/09/1.html

  4. 良いスライドだった|【資料公開】カイゼンの基本 http://www.ryuzee.com/contents/blog/7097 @ryuzeeさんから

  5. ザッカーバーグ夫妻、疾病研究に30億ドルの投資表明 写真2枚 国際ニュース:AFPBB News http://www.afpbb.com/articles/-/3101737 … @afpbbcomさんから

  6. カニとセミと技術 https://twitter.com/kumagi/status/777326098363224064  https://twitter.com/torikameinu/status/777855670838136833

  7. 何回見ても笑う|【そうくるかw】当たり前のことを「新書のタイトル」っぽく言ってみたら9選 http://corobuzz.com/archives/77880

  8. 製造業者は「大人の工場見学」みたいな感じで製造過程を360°動画で公開するのすぐにやるべき|「ジャック・ダニエル」のFacebook連動キャンペーンが粋すぎる!360°動画活用事例 http://gaiax-socialmedialab.jp/post-44199/

  9. 気になってる|最強のMacHDR 写真編集ソフトウェア!?「Aurora」の最新版、今月29日発売 | Techable(テッカブル) http://techable.jp/archives/47284 @TechableJpさんから

クラスタ数を自動推定するX-means法についてメモ

会社の勉強会ネタとして以下の記事を書きました

qiita.com

 

以前にk-meansのk数をどうやって推定するか、という記事を書いたのですが、コメント欄に「x-means」とだけ書かれたツライコメントを頂きましてそれを調べた、という記事です。

kskbyt.hatenablog.jp

 

x-meansのロジックを調べるために、尤度とかベイズ推定とか情報量とか改めて勉強したのですが、やっぱり勉強会で発表するために調べ物するのは身が入ってよいです(みんな自分より賢い人ばかりなので適当な発表すると白ける)。

 

Enjoy!

噂の「TensorFlowでキュウリの仕分けを行うマシン」がMFT2016に展示されていたので実物を見てきた

 

個人的には最近聞いた話の中でひさびさにワクワクした話。

「医療」「教育」「農業」のようなIT未開の分野に黙々と取り組んでいる人達はヒーローに見える

Google Cloud Platform Japan 公式ブログ: キュウリ農家とディープラーニングをつなぐ TensorFlow

約三行要約

  • エンジニア職だった方が実家のキュウリ農場でtensorflowを使った自動の「キュウリの品質仕分け機」を自作している
  • 家族(仕分け担当はお母さん)が9段階に仕分けしたキュウリを撮影し学習用画像データ(80×80px)としている。画像7000枚分。
  • 収穫のピーク時には一日 8 時間ずっと仕分け作業に追われる。それを自動化したい。
  • Web カメラによる画像撮影は Raspberry Pi 3 で制御し、そこで TensorFlow による小規模なニューラルネットによってキュウリのあり・なしを判断
  • 学習と計算は外部サーバーを使わず自宅のwindowsデスクトップPC1台(中身はLinux)で行っている。学習完了まで2〜3日かかる。
  • キュウリ画像の認識にはTensorFlow の「Deep MNIST for Experts」をベースに、若干手を加えたディープニューラルネットワークを用いている
  • test画像データでの精度は95%。本番データでは精度約70%ほど。


そしてこちらの自作マシンと作者の方が8月6,7日に東京ビックサイトで行われていたMaker Fair Tokyo 2016に参加されるということで行って少しだけお話を聞きました。

頂いた名刺の肩書(?)が「きゅうり農家/組み込みエンジニア」 となっていてシビれる。

 

会場でお聞きしたこと

  • ブログなどで製作工程をいろいろ書いていたらgoogleから連絡がきて上記の記事が作られた
  • 当初、キュウリ仕分け担当のお母さんは「そんなものでほんとにできるの?」と半信半疑だったそう
  • 学習用の7000枚のデータはGitHubで公開中(!)いろいろ触ってみてくださいとのこと
  • (学習用画像のクオリティー向上のため)写真を撮影するステージの光の当て方など試行錯誤中。識別部分の詳細ブログ
  • 例えば1時間1000円時給×8時間×作業日数を考えるとGCPなどの計算サーバを使用してもペイできそうではある
  • この仕分け機は8万円ぐらいで作ってる。そのうち数万はモニーター代(DIYあるある...)(そしてモニターは必須ではない。展示用らしい)
  • 細かなリンク部品などは3Dプリンターを使って印刷
  • 個人農家はみんな家(家族)で人力仕分けしているのでこういった安価な仕分け機はニーズがあるのでは
  • 現状以上に画素数などを上げるとどれほど学習コストがあがるかはまだ検証していない
  • もっと効果的に学習できる方法はないか検討中
  • (現状では)キュウリ一本の判別に3秒ほどかかってそうな感じ(以下動画参照)
  • まだ試作機2号。絶賛改良中
  • twitterブログで開発記を発信中


▲キュウリの「上」「下」「横」から撮影して判定

▲会場で再生されていたデモ(?)

 

個人的感想

お話を聞いて、そしてこれまでの仕分けの成果を考えると、もう少し試行錯誤すれば間違いなく人並み(お母さん並)の識別能力を得られるのだろうと思う。というより、"試行錯誤"しなくても、ぶっちゃけ学習用画像データのピクセル数を上げてGCPサーバーで大量にぶん回せば現在の約7割の精度はあっという間に100%に近い精度に上がるのだろう。

ただ、常にこういった技術の話で見失ってはいけないのは「目的は何か?」と「掛けられるコスト(時間・お金・人手)はどれほどか」ということ。

お話してみても、ブログを読んでみてもわかるように作者の方は技術に良く精通されている方なので物理で殴れば簡単に精度を向上できることは十二分に理解されている。つまり、真に難しいのは「キュウリ農家としてどこまでやるべきか」ということ。

実際に動いているところを見れて本当にエキサイティングだったし、「技術はなんのために使うか」を考えさせられる良い時間でした。猛暑のなか行ってよかった。

まぁ、つまり、一言で言うと、

かっこよすぎる

 

作者さんブログ: 

Workpiles | We work smart, we work rapidly, we keep working!

 

ディープラーニングの技術記事なのに最初の小見出しが「キュウリの仕分けとは」で始まる秀逸な記事

TensorFlowでディープラーニングによる『キュウリ』の仕分け | Workpiles

 

twitter

twitter.com

公開されている学習用データ:

github.com

 

(追記)

この記事を書いたのと同じ日にすでに上記のデータセット使って遊んでいる人がいた...データをオープンにする価値はすごい

qiita.com

「k-meansの最適なクラスター数を調べる方法」を書きました

会社の勉強会ネタとして以下の記事を書きました

qiita.com

 

この記事を書くきっかけになったのは以下の記事です

mercan.mercari.com

この記事では、デモグラ情報を持っていないユーザーを対象に、各ユーザの時間帯別のアクセス量を元にユーザをクラスタリングすることで属性推定を行う、という話でした。(シンプルなのに面白いので未読の人はオススメです)

 

ちょうど担当している案件でも、デモグラ情報を持っていないユーザのアクセスデータがたくさんあったのでやってみようと思ったのですが、そこでお馴染みの「k-meansのk数どうするの問題」に遭遇したことで調べ物した内容をまとめた記事になってます。

誰かのお役に立てれば :)

 

 

医療AI、爆誕!!!

人工知能」と名の着くニュースはまず疑え。 と...わかってはいるんだがテンションがあがる。

www3.nhk.or.jp

女性患者の1500に上る遺伝子の変化のデータを人工知能に入力し分析したところ、人工知能は10分ほどで女性が「二次性白血病」という別のがんにかかっていることを見抜き、抗がん剤の種類を変えるよう提案したということです。 

単純に、論文を大量に読み込ませて自然言語処理させて治療法案のレコメンドを提示しただけかと思ったら、遺伝子情報をインプットデータにして分析っぽいことまでしてる... そんな高度なこともう出来るようになってたの...

(実際に"じんこーちのう"が何をおこなっているのかは全く謎だけど)

まさか、「人工知能」と「ヘルスケア」タグを同時に付ける記事をとうとう書いてしまうとは。。。

 

医療用人工知能が超膨大な情報を元に機械学習で出す治療案はすでに人間には「なぜそれが良いのか」理解できない。反対に、人間の医師はコミュニケーションを通じて(その医師の技量に依存してしまうが)納得感のある治療を行ってくれる。


最近お気に入りの漫画「AIの遺電子」の診察シーンにも、

私(医師)が行った検査では異常が見つからない。
なので"超高度AI医療"の受診をおすすめする。
ただしAIが施した治療は人にはなかなか理解が難しい。もし人の手による解決を望まれるなら別の医者を紹介する

というようなセリフがある。

これはまさに未来の「診断結果あるある」になりそう。


未来の医療がすべてAIに取って代わられるわけではなく、「人の手によるコミュニケーションを通じた治療」を望む人もきっとたくさんいる。


上記のリンクのインタビュー動画でも患者の女性が、"先生と人工知能にダブルでお墨付きをもらったような安心感があった"と話されている。


未来の医療は「人(人間の医師)による安心感・納得感」と「AIによる科学の結晶」を患者がシーン別に選択して治療を受けるスタイルになることは間違いない。

 

AIの遺電子 1 (少年チャンピオン・コミックス)

AIの遺電子 1 (少年チャンピオン・コミックス)

 
AIの遺電子 2 (少年チャンピオン・コミックス)

AIの遺電子 2 (少年チャンピオン・コミックス)

 

 

 

ハードウェアベンチャーのトークイベントに参加したので印象的だった話メモ

7月30日に参加したイベントの参加メモ

全自動洗濯物折り畳み機(ランドロイド)、Moff Band、アクティビティー中でも快適に会話できるウェアラブルトランシーバー『BONX』。どこかしらかで聞いたことがあるようなプロダクトばかりだったので気になってました。特にランドロイド!!!

slogan-tech.connpass.com

 

セブン・ドリーマーズ・ラボラトリーズ株式会社のランドロイド

2014年7月に「世の中にないモノを創り出す技能集団」として設立されたセブン・ドリーマーズ・ラボラトリーズ株式会社。全自動洗濯物折り畳み機(ランドロイド)を発表し、世界中の家電業界に大きな衝撃を与えた。

seven dreamers laboratories セブンドリーマーズ

「世の中にないもの・人々の生活を豊かにするもの・技術的にハードルが高いもの」 に狙いを定めて製品化されているそうです。「技術的にハードルが高いもの」が入るところに技術会社っぽさを感じてかっこよいです。

ビジネスドメインとしては

  • 完全フルオーダーメイドのカーボンシャフトゴルフクラブ
  • 無呼吸・いびきを治す医療機器
  • そして全自動洗濯物折り畳み機「ランドロイド」

を展開しているそうです。3つが全く関係なさそうなところが面白い

特にランドロイドですが、日本人が「洗濯」というタスクに一生で費やす時間は375日に相当するそうです。これを機械化できればかなりの時間を捻出できるというのがランドロイドの存在意義だそうです

laundroid.sevendreamers.com

ランドロイド普及へのマイルストンとしては

  • 2018年 介護福祉施設や病院など向けに販売
  • 2019年 一般家庭向け(洗って乾かして畳むところをまでを行う)
  • 2020年 ランドロイドが標準で家に備え付けられるようになる。クローゼットにしまうところまでシステム化したスマートハウスを目指す

このマイルストン達成に向けて、洗濯機のノウハウがあるパナソニックと、スマートハウスを推進するダイワハウスと協力してジョイントベンチャーも設立されています。

ランドロイドは2015年のSEATECで初めてお披露目されましたが、なんとランドロイドの開発は10年も続いていたそうです。かなりチャレンジングな製品に10年も投資し続ける熱意...

SEATECに登場した当時はネットでもかなりバズっていた記憶があります

news.mynavi.jp

 

で、分析官的には興味があるのが、『ランドロイドがどうやって服の種類を認識(画像認識)して綺麗に畳む処理(服のどこを掴んでどういうふうに畳むとシワができないか)を実行しているのか』、そしてそれを実現しているロボティクス部分ですね。

トークをされた方にその辺を質問してみましたが、しかし当然ながら企業秘密で一切ノーヒントでした。

www.youtube.com

(こちらのSEATECのデモ動画でも洗濯物認識部分はほぼモザイクで隠されています)

ただ、やはりあらゆる種類の服の形を教師データとして作成されているそうです。女性物の服とか、どこに手を入れて首を出すのか難しそうなものもありますが、どこまで教師データを揃えると良い制度で畳めるんでしょうね。気になります。

あと、畳んでもやはりシワは出来てそうだから、もういっそアイロンもかけちゃって欲しいですね。

正直、「二度手間が発生しない程度まですべての服をきちんと畳んでくれるか」はかなり懐疑的で、それが発売されたとしてみんな買うかは謎ですが、チャレンジングな分野への挑戦として応援しています

 

ウェアラブルバンドのMoff

2014年にウェアラブルバイス「Moff Band」をリリース。センシング技術・ソフトウェア・クラウドを活用して、コンピューターが人間にとって自然に使用できる環境を実現するデバイスの企画・製造・販売を行う。

Moff(モフ)- 想像力豊かで新しい遊び

子供向けの活動量測定ウェアラブルバンドだそうです。

『1ハードウェアに1機能では拡張性が小さすぎる』『1ハードウェアで多様なユースケースに対応する』ことにかなり注力されているそうです。

現在はモーションデータしか取れないそうです。多様なユースケースに対応するインターフェイスSDKを拡張していくそうです。

 

ウェアラブルトランシーバー BONX

スノーボード中にコミュニケーションを取ることができるウェアラブルトランシーバー『BONX』を開発。人の声だけを認知する発話検知のソフトウェア技術と、風切音などのノイズを低減するハードウェア技術の高度な統合を実現している。

BONX-ウェアラブルトランシーバー- オフィシャルサイト

ウェアラブルトランシーバー」って何だという感じですが、アクティビティー中の通話に特化した高機能なマイク付きイヤフォンという感じ?でした。しかし聞いてみるとなかなか痒いところに手が届く機能っぽい

bonx.co

  • 専用スマートフォンアプリとBluetoothデュアルモードで接続
  • 話しているときだけ通信する独自のグループ同時通話システム
    (10人同時通話可能)
  • 電波の弱い環境での切断や遅延を抑制
  • あなたの声を検知して自動で通信する完全ハンズフリーモードを搭載
  • 携帯電波を使うため通信距離の制限は一切なし
  • マルチレイヤーでの騒音・風切り音対策によるクリアな音声を実現(デュアルマイク搭載・防水音響フィルター内蔵)
  • 水や衝撃に強く、快適な装着性で長く使える
  • ノーマルモードや会話中の音楽再生など、一人一人にあった楽しみ方を提供 

 つまり、例えばスノボを複数人でやっていても仲間内で会話ができる。かつ風切音などのノイズも消してくれる。通話した瞬間だけ起動・通信利用なので電力的な消費も少ない とのことらしいです。デバイスの設計理念や完成度もかなり高い印象で、実際にクラウドファウンディングでは2500万の寄付をゲットしています。

純粋なアウトドアイヤフォンというだけでなく、補聴器なども含む広いマーケットをビジネス対象としているそうです。

話し声以外のノイズをキャンセルするためには、ノイズの波形のタイムシーズを伸ばして判定させると精度が上がりはするが、そのあいだ音をバッファーしているため通話に遅延が発生してしまうというトレードオフの問題解決が難しいそうです。ウェアラブル端末なので「リアルタイム性」をまず担保しつつ、利用の快適さも損ねないという技術バランスは非常に難しそうです。

あと、ちょっと気になって質問してみましたが、接続して常時専用アプリが立ち上がっているスマホ側のバッテリーもたくさんは食わないそうです。

トークされていいた開発者の方の開発熱意も伝わってくる応援したくなるデバイスでした。

 

感想

IoT/新規のハードウェアが生み出すデータはどんなものがあるのか、なにか分析官が関与できる分析的課題はあるのかと思って聞いていましたが、どちらかというとまだハードウェアの性能をあげるための試行錯誤があるという印象でした。

ただ、ランドロイドの画像認識やBONXのノイズ除去など、高度なデータ活用がモノをいいそうな技術的課題もたしかに存在するようです。そういった問題には、大企業を辞めてベンチャーでジョインした少数精鋭の高度な技術者・分析者が取り組んでいる様子が少し聞けました。

IoTが叫ばれて久しいですが、そういった新規のデバイスが生み出す爆発的な量のデータを使ってビジネスをするベンチャー企業はまだまだ先のようです。