ユーザークラスタリング手法を調べたのでまとめてみた
ユーザーのクラスタリングをしようと思い、先行事例をググってまとめました! (※前提として、「ログイン機能のないwebサイトにおける、登録者数増加」を最終目的としています。)
結論
- たくさんある。まずは単純集計して、傾向を掴み、次に以下の切り口を真似するのが良さそう。
ユーザの行動履歴データを用いたコンテンツ興味推移カテゴリの可視化手法
調べたものを羅列
東大松尾さんの、興味ジャンル、興味レベル、興味行動(時系列)で分類した事例
- 切り口:マンガのテーマ、その興味レベル、興味行動をもとに分類
- 方法:それぞれFuzzy C-means 法、Yang氏の論文に記載のスコアリング、評価4以上をつけたかなどの行動指標 で算出し、論文に記載の独自式で計算
- 良い点:テーマ、興味レベル、関心の推移の切り口であるため、応用が効きそう
- 活用イメージ:記事テーマ、購買意欲レベル、購買フェーズに至るまでのプロセス、で応用できそう
- ユーザの行動履歴データを用いたコンテンツ興味推移カテゴリの可視化手法
マンガサービス(LINEマンガ?)のクラスタリング
-
- 切り口:時間帯ごとのアクセス回数の比率を使って、活動時間の特徴別に分類
- 方法:kmeans法
- 良い点:行動パターンと商品内容からどのような人物なのか推定がつく(例:昼間にファッション系のアイテムの売買が多い=主婦層 など)
- 活用イメージ:行動パターンからどういう趣味嗜好があるひとなのかの推測ができるためレコメンドなどができそう
- クラスタ分析を駆使して、メルカリのユーザのことをもっとよく知ろう! | mercan (メルカン)
サイバーの広告におけるセグメント分け
- 切り口:接触広告媒体、購入商品、CV種類?
- 方法:階層型クラスタリング
- 良い点:どの広告媒体にどれくらい接触している人が、どういう商品を買っているのかがわかるので、即決ユーザーか、優柔不断ユーザーかなどがわかる
- 活用イメージ:CVしたユーザーのうち、どういうテーマを見ている人がどういう属性だったのか
- ユーザー行動を階層型クラスター分析で分けてみた。 | インターネット広告代理店で働くデータサイエンティストのブログ
行動ログ以外のデータを活用しているもの
-
- 切り口:都道府県ごとの、応募者数×属性(フリーター、学生)
- 方法:階層型クラスタリング
- 良い点:どの都道府県にどの属性が多くて、それらがどれくらい応募しているのかわかり、類似県をまとめられる
- 活用イメージ:閲覧ページのテーマ×応募数×応募属性で分類し、どのテーマがどの属性向けのコンテンツなのかわかる。
- ユーザー属性を利用した都道府県のクラスタリング-LIVESENSE DIGITAL MARKETING
エンジニア分類
- 切り口:使用言語の種類
- 方法:非階層型クラスタリング、特異値分解によって次元削除している
- 良い点:どの言語を使っている人がどの言語も使っているという傾向がみれる
- 活用イメージ:記事分類。 特異値分解によって、相関が強い変数を削除できるなどしそう。
- https://qiita.com/sergeant-wizard/items/ef62680d2b7d458eb256
ヴァリューズの分析
- 切り口:購買傾向アンケートをもとに
- 方法:非階層型クラスタリング、特異値分解によって次元削除している
- 良い点:どの言語を使っている人がどの言語も使っているという傾向がみれる
- 活用イメージ:記事分類。 特異値分解によって、相関が強い変数を削除できるなどしそう。
- https://qiita.com/sergeant-wizard/items/ef62680d2b7d458eb256
注意点や手法など
注意点
- セグメントの目的を明らかに
- 良いセグメントの条件
- MECE
- ボリュームが偏っても欽一でも構わないが特徴がある状態を目指す
- 大雑把すぎず、細かすぎない。3-7つくらいが妥当らしい
おおまかな分析手順
- やり方例
- 基本属性でで単純集計する (性別など)
- 集計結果をさらに分ける(売上金額、利用状況など)
- 説明したい事象に対して、データの意味付けを行い分類する(新規、リピート、リターン)
クラスタリングの切り口
- 人口動態変数:CVしていないと不明
- 地理的変数:学校からのアクセス?会社からのアクセス?
- 行動変数:就職動機、閲覧回数、閲覧時間、購買フェーズ
- 心理的変数:ライフスタイル、悩みの内容?
クラスタリングの分析手法をざっと
-
- その指標にける割合を、単純にABCランクに分ける
- デシル分析
- ユーザーを10段階に分ける
REM分析
- Recency、Frequency、Monetaryに分ける
- ECやログインしていないサービスだと難しいかも。やるとすると、登録後の動きか、アクセス日、購入フェーズ≒購入金額(スコアリングする)、リピート数など。△
階層クラスタリング活用例:CVしたユーザーとしてないユーザーでクラスタリングを行い、その要因から導線設計などを行う(つまり活用にするには、一度属性などでクラスタリングを行い、その中でCVしたユーザーとそうでないユーザーの2分類に分けて、行動をクラスタリング(ページ数、時間など)して要因を特定するなどがありそう)
- 非階層クラスタリング活用例:ユーザー行動ログからにたユーザーを分類し、その行動パターンからレコメンドを行う
- 主成分分析:多くの変数を持つデータ・セットから特徴を表す新たな合成変数を作成する手法、それにより説明変数の圧縮を行う
- ソフトクラスタリング:TOPIC分類のように、複数のクラスタに所属しそれぞれの確率を算出する