データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

データサイエンティストの必要スキルセットを議論するのは疲れた

以下の記事を拾ったので読んでみた

Data Science Skills for 2016

 

この記事では、LinkdIn上でデータサイエンティスト職だと名乗っている人達に3,490のアンケートを送りつけて集計した"データサイエンティストの必要スキル"について書いてる。

以下そのランキングの転載

  1. SQL
  2. Hadoop
  3. Python
  4. Java
  5. R
  6. Hive
  7. Mapreduce
  8. NoSQL
  9. Pig
  10. SAS

ランキングの結果、SQLがダントツだったということらしい

ビビるのは2番にHadoopがくること。LinkdIn上でデータサイエンティストと名乗る人たちの意識の高さなのか、海外では常識なのか。日本ではたぶん2位にHadoopはこない。

Rよりも高いランクにJavaが来るのはHadoopのランクに引っ張られているからだと思われる(HadoopJavaで書く)

あとはPigというのを初めて知った。

 

もしも日本のデータサイエンス職のヒトでおなじアンケートをとるとおそらく

  1. Excel
  2. SQL
  3. R
  4. python
  5. ...

みたいになるのではないかな。そしてそれぞれのランクの間にはかなり大きな開きもありそう。

実際、データサイエンティストとしての働き方はいろいろあるように感じる。

例えば、コンサルよりなデータサイエンティスト。この人は交渉力とプレゼン力と論理性とあとExcelがバリバリ使えれば良い感じ。他にはExcelSQLを駆使して集計の鬼になるタイプの分析官。これらのタイプの分析官(?)は下手をするとクロス集計と論理性があれば別に統計学とかも必要ないのかもしれない。

その上に、複数要素を盛り込んだモデルを組みたてたり機械学習をするためRやpythonを駆使する分析官がいる。でもこのタイプの分析官と、深層学習などをバリバリ使える分析官の間にはまた大きな隔たりがある。RやPython機械学習を道具と割りきって分析に使うか、「いやいやアルゴリズムや数式を理解して初めて"使える"でしょ?」という分析官に分かれる。

とにかく、その分析官がいる環境によって必要とする道具が異なるし、クライアントによって求められるアウトプットのレベルや質も異なるので一概に「学ぶべきスキルセット」の議論に明確な結論は出せない。仕事内容による!

個人的な意見としては、「職業として"データ分析官"といっているなら、お金さえ稼げればなんでも良いのでは。あとは個人の興味・趣味レベルで好きなところまでやりこめば良い」と思っている。つまり「必要なスキルセット」という議論はつまらないし意味がないと思ってる。まぁ自分も「いや、明確にしてくれよ、勉強しにくいじゃん」と思っていた時期もありました。それに答えるなら「SQLExcelができれば仕事はこなせるかもね。でも長い目で見ると分析官として死ぬからPythonやるとよいよ、なにより楽しいし」と思っている。

新卒の戯れ言でした