データが集まるところに分析環境が生まれる? - GoogleCloudPlatformが作ったJupyterライクな分析環境の話など
週に一回行っている社内勉強会で、今日のネタはGoogle Big Queryでした。
私は一度も使ったのことが無いのですが、一般的なポスグレなどのSQLと違ってデータの取り出し方などが違うそうでいろいろ勉強になりました。
一番ビビったのは、クエリー回す度に、取り出すデータ量ごとに都度課金されること。そんなのでアドホック分析できるのか。精神の安定は保てるのか。少なくとも貧乏症の自分にはストレスに耐えられなそうです。ただ、1TBのデータを取り出しても数ドルくらいらしいです。一応お安いようです。
ただこんな話もありますね...
あと話題に出ていたのが分析環境の話。
お気に入りの作業環境であるJupyter notebookが最近バージョンアップし、ますます分析環境分野で勢力を伸ばしていますが、Big Queryを保つGoogleも分析環境を用意してきているようです。(記事は少し前の話ですが)
中身は Jupyterをベースにしているそうです。やはりこのような環境がこれからますますスタンダードに成るのでしょう。だって便利だしなぁ
こういった分析環境は簡単に作れるのですが、大きなデータは先方企業から受領したり、社内のDBにimportしたりするのが本当に手間なので、初めからGoogleのサーバー上にデータが保管されていてBig Query回したら分析すぐ出来ますよという環境はラクチンで良い。
つまり何が言いたいかというと、分析環境つくるよりデータを持ちだしたりするほうが面倒なので、「データがあるところに分析環境をつくる」というような流れに今後はなるのかもしれない。そういった意味ではすでにJupyterがあるのに、google謹製でわざわざjupyterライクな環境を作る意味も理解できる。これからはGoogleのプラットフォーム上だけでデータの収集も管理も分析も完結できるのだ!という世界を作りたいのかもしれない。Google 恐ろしい子...
以下、Datalab上のコーディング例
pythonもsqlもbigqyeryも一つのシート上に入り乱れてて凄い。かなりシームレスに言語を跨いで分析してる。。。
そんなわけでCloud Datalabは今後便利になって主流に成るかもしれないが、現在はベータ版なので仕事で使うのはまだ先になりそう。