データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

リクルートのオープンデータ。誰に向かって公開されている?

markezine.jp

実際のサイトはこちら

jbrc.recruitjobs.co.jp

サイトの内容は表題そのまま。

行政のオープンデータサイト「RESAS」を思いださせるようなサイトになっている。D3で動いているそうだが、相変わらず表示が重たげ...

平均賃金が下がっている順とか特徴的に増減している業界などを見たかったりするが、フィルターというかランキングというか、そういった機能はなさそう。

アルバイトとかパートを探す人は、きっとこういった「かっこいいサイト」を眺めるより、よりシンプルに、早く、わかりやすく探したいと思うのでニーズ(対象者)向けにはなってなさそうな気がするのだけどどうだのなだろう。。。「データを見慣れている人(オープンデータ関係者)」に対して「どや、かっこええやろ?」と言っていそうな気がする。一度見たらもう開かないかな...

いや、でもオープンデータとして公開することは最高に素敵なことやで。自分も何かこういった分野に貢献しなくては...

 

 

もうデータ置き場も分析環境も全部Googleで良いのではないか問題

 

japan.cnet.com

 

以前にこんな記事を書いた 

kskbyt.hatenablog.jp

 

上記リンク記事のようにBigQueryに標準SQLがサポートされ、分析環境が整っていく一方で、分析官の利便性向上もJupyterを標準サポートすることで着々と準備されている。データが生まれる(貯めている)ところに着々と分析環境が整い始めている。

www.apps-gcp.com

 

個人的には、SQLを書くときのエディター?にはjetbrain社のDataGripを使っている。というのもpgadminはUIが嫌いなのでテンションがあがらない(今の時代に入力補助が無いエディターもスゴイと思うが...)しかしホントの事を言うとDataGripもイマイチ気に入っていない(特に、長いSQL結果を分割して表示する当たり)

本当は大好きなJupyterでもSQLを書きたいが、SQLの大量レコードをどのように画面に出力するかもUI的に難しそうなので、jupyterでSQLを使うことは諦めていた(方法はは知っているが)。何でもかんでもjupyterで書こうとすると逆に利便性下がりそうな気もするし。

ただ、上記のリンク記事中のCloud Datalabで BigQueryにアクセスしてデータを引きずり出してきている画面を見る限りではなんだか便利そうだし、イカしてる感じがする

インストールが面倒くさいpandas, numpyを標準装備し、さらに import gcp.bigquery as bqと書くだけでSQL結果もサクサク抽出できるなら鬼に金棒感ある。「統合分析環境」というのはこういう環境なのだろう。

 

現状では、多くの企業ではAWSのRedshiftなどを使ってSQLで分析している印象があるが、分析官的にも、データはgoogleのストレージに置いてもらってbigqueryやpandasを縦横無尽に行き来して分析できる環境がハッピーになるのかもしれない。いつか臨界点を超えて全員がgoogleプラットフォーム上で分析作業してそう。

機械学習用の学習データをイチから自力で作るには愛がないと無理だと悟った

いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライド

コードや説明など細かく書いて公開されているのですごく勉強になる

speakerdeck.com

上記のスライドのテキスト内容(ブログ記事)がこの辺になるらしい

機械学習の結果の精度はツール自体(アルゴリズム)の精度、というよりはインプットデータの量と綺麗さによる部分が大きい。そんなわけでこのスライドに紹介されている話も例によってインプットとする画像への正解ラベル付けが地獄なわけですが、

 

ということで、学習用のデータを用意するのは大変だけど、

  • ある程度(自力でラベル付を行い正解データが)集まったらとりあえず学習させる
  • 学習させたモデルを使って推論させてみる
  • 推論結果を検証することで学習データを増やし、再び学習させることで精度が上がる

というサイクルを続けることで、なんだかんだで自力で13000点ほどの分類済みのアイドル顔データを作ることができている。

そうなのか、、、それだけで本当に13000枚の写真にラベル付ができるのか...orz 傍から聞くとすごい修行感あるのに...

ただ、すぎゃーん氏もラベル付けのために自作のウェブアプリなどを自作されてて、入力などストレス無くサクサク出来るようにしている。ウェブエンジニアはこういうツールをサクッと作れるのでスゴイ。

その結果、こうなったらしい。

f:id:kskbyt:20160521225411p:plain

うんー。仕事で仕方なく全く興味ない対象の学習データを自力で作るの、これ見たらやっぱり無理だと悟った。愛がないと無理。

チャットbotというUIにするだけで確かに便利っぽくなる

LOHACOの会話AI(?)が話題なので実際に使ってみた

bita.jp

何かのアプリとかインストールさせられるのかもと思ったら、LOHACOのWebページ上でブラウザだけで操作(会話)できる

lohaco.jp

 で、やってみたんだが、これってAIなのか?(汗)

よく検索される内容は会話前から既に選択肢として表示されている。これはまあ良いのだけど、実際に「ビールが欲しい」とか投げると単にビールの標品紹介URLを教えてくれるだけ。単にこれは「ビール」「欲しい」などの単語に対して決まったレスポンスを返しているだけでは...

なにか、もっとAIの本領を発揮する単純な質問以外を投げれば「AIすごい!」と思える反応をしてくれるかもしれないが、自分がいろいろ質問をした限りは

  • 単純な質問 → 質問中のワードに関する紹介ページを教える
  • 主語述語などがはっきりしない質問。言葉を省略した質問 → わかんない、と返す

これは流行りの「何でもかんでもAIと言っとこう」という奴なのか。。。しかし上記記事のようになんだかすごいコスト削減が実現されたらしい。うーん。

 

考えてみると、これは単純に受け答えの精度が良いからではなく、「対話質問形式」というUIが従来の「検索ウィンドウのみ」のUIよりも利便性が高かっただけではないのかと思う。

最近は何でもかんでもウェブアプリ化され、そもそも一般の人は「検索する」という行為が減ってきていると話も聞く。LINEの利用率の高さもあり、「検索ウィンドウなんてしゃらくせえ」ということで対話形式の慣れ親しんだUIが受け入れられている、ということではないのかな

仮にそうだとすると、やはりfacebookが作ろうとしている(作った?)facebookメッセンジャー上で商品売買や支払いが出来る流れは大正解で、非常に成功するのではないかなどうなのかな

 

世のツイッタラーはGWに何を撮ってアップしていたのか?(Twitter API+Cloud Vision API)

というタイトルでQittaに初めて記事を書きました。社内勉強会向けにゴールデンウィークに書いたネタ記事です。

qiita.com

久々にmarkdown書いたのですがやっぱりメンドイ。特にテーブルとか思った通りに表記できなくてストレス溜まる感じですね。文章書くというのは大変だ...

あわよくばこの記事が誰かの役に立ちますように。俺の屍を越えて行け。

データサイエンティスト協会が「データサイエンティストを目指す人のためのページ」を開設

データサイエンティスト協会が本日、新たなWebページを公開したそうです。

www.datascientist.or.jp

 

ページの説明には"データサイエンティストとデータサイエンティストを目指す方のための無料会員制情報サイト"となっており、ざっくり中身を見てみると、公開されたばかりでほぼコンテンツは空の状態ではありますが、データ分析に関する企業インタビュー記事、勉強会・セミナーの案内、データサイエンティスト職に対するQ&A、スキルチェック、求人情報(!)などが今後掲載されていく予定のよう。データ活用を目指す企業向けではなく、たしかに「データサイエンティスト(人)」に向けたページにしていく様子が見られます。インタビュー記事などはVIPな方が登場しそうな予感がするので楽しみですね。

 

データサイエンティスト協会といえば話題に上がるのが、「データサイエンティストスキルチェックリスト」。

www.slideshare.net

わりと膨大な量でビビるのですが、yahoo、電通、albelt、SASIBMの方々が委員会に参画しており、非常に真面目に作られた資料だそうです。データサイエンティストの分析を力を示す具体的なスキルカテゴリやそのレベルなどが詳細に記載されており一読の価値がありです。

「これが何の役に立つの?」と思われますが、求人の際などに利用が期待されているそうで、「当社はデータサイエンティストとしてレベル◯は必須で、それ以上の人を雇いたいです。レベル◯以上はオーバースペックなので今回は遠慮します」みたいな応募が掛けられてニーズスキルで明確化できるので便利なのだとか。データサイエンティストを目指す人も、勉強のための目標ができて良いかもしれません。今後のコンテンツも楽しみですね。

ジャーナリズムとして「物事を伝えること」はますます難しくなる時代

@c_zさんの新しいパナマ文書記事

medium.com

 

約三行要約

  • offshore leaksから一部、パナマ文書に関するデータが公開された
  • データ形式csvで、きれいに整地されたデータでかつサイズが小さいのでローカルマシンでもいろいろ処理できる
  • このデータを使っていろいろ可視化などはできるが、結局、経済の専門家やオフショア金融のエキスパートではないとデータの解釈はできない

感想

ついに(一部であるが)パナマ文書のデータが正式公開され始めたそうです。しかもデータ処理についてよくわかっている人たちが公開していることもあり、データはすでに非常に取り扱いのし易い形で公開されるとのこと。素敵です。

ただ、このデータが公開されても触ることができるor解釈することができるのは、コードを書くスキルを持った人or金融のエキスパートだけになりそう。いちおうパナマ文書に関する話は「データジャーナリズム」というタグで語られることが多いそうなのですが、では「ジャーナリスト」には何ができるのでしょうか。「物事を伝える」ことがジャーナリストであり、その必須スキルは「課題発見能力だ」と実際に"ジャーナリスト"の肩書を持つ人に教えてもらったことがありますが、近年の現象には全てといっていいほど高度なIT技術や膨大なデータが関係していることを考えれば、もはやジャーナリストが必須とするスキルはそれだけにとどまらなそうです。なので、ジャーナリストは他の専門家との協同が必須だと思われます。「物事を正確に伝える」には相当な技術が必要な時代になりそうです。