データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

データが集まるところに分析環境が生まれる? - GoogleCloudPlatformが作ったJupyterライクな分析環境の話など

週に一回行っている社内勉強会で、今日のネタはGoogle Big Queryでした。

私は一度も使ったのことが無いのですが、一般的なポスグレなどのSQLと違ってデータの取り出し方などが違うそうでいろいろ勉強になりました。

一番ビビったのは、クエリー回す度に、取り出すデータ量ごとに都度課金されること。そんなのでアドホック分析できるのか。精神の安定は保てるのか。少なくとも貧乏症の自分にはストレスに耐えられなそうです。ただ、1TBのデータを取り出しても数ドルくらいらしいです。一応お安いようです。

ただこんな話もありますね...

BigQueryで150万円溶かした人の顔 - Qiita

 

あと話題に出ていたのが分析環境の話。

お気に入りの作業環境であるJupyter notebookが最近バージョンアップし、ますます分析環境分野で勢力を伸ばしていますが、Big Queryを保つGoogleも分析環境を用意してきているようです。(記事は少し前の話ですが)

jp.techcrunch.com

中身は Jupyterをベースにしているそうです。やはりこのような環境がこれからますますスタンダードに成るのでしょう。だって便利だしなぁ

こういった分析環境は簡単に作れるのですが、大きなデータは先方企業から受領したり、社内のDBにimportしたりするのが本当に手間なので、初めからGoogleのサーバー上にデータが保管されていてBig Query回したら分析すぐ出来ますよという環境はラクチンで良い。

つまり何が言いたいかというと、分析環境つくるよりデータを持ちだしたりするほうが面倒なので、「データがあるところに分析環境をつくる」というような流れに今後はなるのかもしれない。そういった意味ではすでにJupyterがあるのに、google謹製でわざわざjupyterライクな環境を作る意味も理解できる。これからはGoogleのプラットフォーム上だけでデータの収集も管理も分析も完結できるのだ!という世界を作りたいのかもしれない。Google 恐ろしい子...

以下、Datalab上のコーディング例

github.com

pythonsqlもbigqyeryも一つのシート上に入り乱れてて凄い。かなりシームレスに言語を跨いで分析してる。。。

 

そんなわけでCloud Datalabは今後便利になって主流に成るかもしれないが、現在はベータ版なので仕事で使うのはまだ先になりそう。