データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

学習記録

クラスタ数を自動推定するX-means法についてメモ

会社の勉強会ネタとして以下の記事を書きました qiita.com 以前にk-meansのk数をどうやって推定するか、という記事を書いたのですが、コメント欄に「x-means」とだけ書かれたツライコメントを頂きましてそれを調べた、という記事です。 kskbyt.hatenablog.jp…

「k-meansの最適なクラスター数を調べる方法」を書きました

会社の勉強会ネタとして以下の記事を書きました qiita.com この記事を書くきっかけになったのは以下の記事です mercan.mercari.com この記事では、デモグラ情報を持っていないユーザーを対象に、各ユーザの時間帯別のアクセス量を元にユーザをクラスタリング…

世のツイッタラーはGWに何を撮ってアップしていたのか?(Twitter API+Cloud Vision API)

というタイトルでQittaに初めて記事を書きました。社内勉強会向けにゴールデンウィークに書いたネタ記事です。 qiita.com 久々にmarkdown書いたのですがやっぱりメンドイ。特にテーブルとか思った通りに表記できなくてストレス溜まる感じですね。文章書くと…

SVMとRandomForestのお勉強

分析でSVMとRandomForestを使いたかったので尾崎先生の著書を写経。 そういえば、分析はいつもJupyter notebook上で行ってるんですが、そのコードを共有するのが如何せん面倒だった。 ipynbファイルを渡しても展開できない人がいるし、その都度 ipynbからhtm…

Elastic Netの勉強

"ここ5年ほどで最も刺激的なアルゴリズムの一つ"と(「みんなのR」で)評されているElastic Netについて調べてみました。 Elastic Netとは 一般化線形モデルの回帰に正則化項を加味するモデル。 メリットとして次元削除と過学習防止を良い塩梅にやってくれる…

データ分析まわりの理解を再整理

457はてブって何事だと思ってみたら勉強になった 機械学習によるデータ分析まわりのお話 from Ryota Kamoshida www.slideshare.net 多分初心者向けではなくて、チョット勉強を初めて、勉強していく中で「その単語聞いたことある」けど意味を知らない/よくわ…