データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

機械学習用の学習データをイチから自力で作るには愛がないと無理だと悟った

いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライド

コードや説明など細かく書いて公開されているのですごく勉強になる

speakerdeck.com

上記のスライドのテキスト内容(ブログ記事)がこの辺になるらしい

機械学習の結果の精度はツール自体(アルゴリズム)の精度、というよりはインプットデータの量と綺麗さによる部分が大きい。そんなわけでこのスライドに紹介されている話も例によってインプットとする画像への正解ラベル付けが地獄なわけですが、

 

ということで、学習用のデータを用意するのは大変だけど、

  • ある程度(自力でラベル付を行い正解データが)集まったらとりあえず学習させる
  • 学習させたモデルを使って推論させてみる
  • 推論結果を検証することで学習データを増やし、再び学習させることで精度が上がる

というサイクルを続けることで、なんだかんだで自力で13000点ほどの分類済みのアイドル顔データを作ることができている。

そうなのか、、、それだけで本当に13000枚の写真にラベル付ができるのか...orz 傍から聞くとすごい修行感あるのに...

ただ、すぎゃーん氏もラベル付けのために自作のウェブアプリなどを自作されてて、入力などストレス無くサクサク出来るようにしている。ウェブエンジニアはこういうツールをサクッと作れるのでスゴイ。

その結果、こうなったらしい。

f:id:kskbyt:20160521225411p:plain

うんー。仕事で仕方なく全く興味ない対象の学習データを自力で作るの、これ見たらやっぱり無理だと悟った。愛がないと無理。