データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

もうデータ置き場も分析環境も全部Googleで良いのではないか問題

 

japan.cnet.com

 

以前にこんな記事を書いた 

kskbyt.hatenablog.jp

 

上記リンク記事のようにBigQueryに標準SQLがサポートされ、分析環境が整っていく一方で、分析官の利便性向上もJupyterを標準サポートすることで着々と準備されている。データが生まれる(貯めている)ところに着々と分析環境が整い始めている。

www.apps-gcp.com

 

個人的には、SQLを書くときのエディター?にはjetbrain社のDataGripを使っている。というのもpgadminはUIが嫌いなのでテンションがあがらない(今の時代に入力補助が無いエディターもスゴイと思うが...)しかしホントの事を言うとDataGripもイマイチ気に入っていない(特に、長いSQL結果を分割して表示する当たり)

本当は大好きなJupyterでもSQLを書きたいが、SQLの大量レコードをどのように画面に出力するかもUI的に難しそうなので、jupyterでSQLを使うことは諦めていた(方法はは知っているが)。何でもかんでもjupyterで書こうとすると逆に利便性下がりそうな気もするし。

ただ、上記のリンク記事中のCloud Datalabで BigQueryにアクセスしてデータを引きずり出してきている画面を見る限りではなんだか便利そうだし、イカしてる感じがする

インストールが面倒くさいpandas, numpyを標準装備し、さらに import gcp.bigquery as bqと書くだけでSQL結果もサクサク抽出できるなら鬼に金棒感ある。「統合分析環境」というのはこういう環境なのだろう。

 

現状では、多くの企業ではAWSのRedshiftなどを使ってSQLで分析している印象があるが、分析官的にも、データはgoogleのストレージに置いてもらってbigqueryやpandasを縦横無尽に行き来して分析できる環境がハッピーになるのかもしれない。いつか臨界点を超えて全員がgoogleプラットフォーム上で分析作業してそう。