「k-meansの最適なクラスター数を調べる方法」を書きました
会社の勉強会ネタとして以下の記事を書きました
この記事を書くきっかけになったのは以下の記事です
この記事では、デモグラ情報を持っていないユーザーを対象に、各ユーザの時間帯別のアクセス量を元にユーザをクラスタリングすることで属性推定を行う、という話でした。(シンプルなのに面白いので未読の人はオススメです)
ちょうど担当している案件でも、デモグラ情報を持っていないユーザのアクセスデータがたくさんあったのでやってみようと思ったのですが、そこでお馴染みの「k-meansのk数どうするの問題」に遭遇したことで調べ物した内容をまとめた記事になってます。
誰かのお役に立てれば :)