データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

「k-meansの最適なクラスター数を調べる方法」を書きました

会社の勉強会ネタとして以下の記事を書きました

qiita.com

 

この記事を書くきっかけになったのは以下の記事です

mercan.mercari.com

この記事では、デモグラ情報を持っていないユーザーを対象に、各ユーザの時間帯別のアクセス量を元にユーザをクラスタリングすることで属性推定を行う、という話でした。(シンプルなのに面白いので未読の人はオススメです)

 

ちょうど担当している案件でも、デモグラ情報を持っていないユーザのアクセスデータがたくさんあったのでやってみようと思ったのですが、そこでお馴染みの「k-meansのk数どうするの問題」に遭遇したことで調べ物した内容をまとめた記事になってます。

誰かのお役に立てれば :)