5月23日
BrowseRank
概要
BrowseRankは、Microsoft Research Asia によって提案されたウェブページの重要度評価アルゴリズム
- 従来のリンク構造ベースの手法(例:PageRank)に比べて、ユーザーの関心をより直接的に反映する点が特徴
連続時間マルコフモデル(Continuous-Time Markov Chain)
定義:
\[\pi Q = 0\]ユーザの挙動:
- ユーザーはページ $i$ に平均 $\frac{1}{\theta_i}$ 時間滞在し、その後ページ $j$ に遷移する確率は $P_{ij}$
- この行動は「待ち時間(指数分布)+確率的遷移」のセットで表現される
滞在時間の分布:
-
ユーザーのページ滞在時間は指数分布に従うと仮定:
\[f_i(t) = \theta_i e^{-\theta_i t}\](平均滞在時間 = $\frac{1}{\theta_i}$)
Q行列の定義:
- 非対角要素 $q_{ij}$($i \ne j$):
- 対角要素 $q_{ii}$:
問題点:
- 連続時間マルコフ過程を直接扱うと、指数分布付きの確率微分方程式を解く必要があり、非常に複雑
上記問題解決のために離散時間マルコフ連鎖(DMC)に変換
- $N_{ij}$:ページ $i$ からページ $j$ への遷移回数
- $T_i$:ページ $i$ への滞在総時間
- $N_i$:ページ $i$ からの遷移数
ステップ1: ダミーノードの追加
- 意味:セッションの終了や、ジャンプ先の不明な遷移を吸収するノード
- 実装上は、ユーザーがセッションを終了する/どこにも行かず終わるという状態をモデル化する
ステップ2: 遷移確率行列 $P$ を構築
\[P_{ij} = \frac{N_{ij}}{N_i}\]ステップ3: 離散時間マルコフ連鎖の定常分布 $\tilde{\pi}$ を求める
\[\tilde{\pi}^T = \tilde{\pi}^T P\]- 通常のPageRankと同様にパワーイテレーションで求められる
ステップ4: 各ページの平均滞在時間(=$\frac{1}{\theta_i}$)を使ってBrowseRankを求める
\[\pi_i = \frac{\frac{1}{\theta_i} \cdot \tilde{\pi}_i}{\sum_j \frac{1}{\theta_j} \cdot \tilde{\pi}_j}\]この $\pi_i$ がBrowseRankスコア
BrowseRankを適用して実験
適用するにあたって以下の改変を加える
- ノード間の遷移率はClickStream数(あるいはその逆数)を正規化したもの
- 疑似ノードへの遷移率は他にエッジがないノードのみ1、それ以外は0
- 疑似ノードからの遷移率及びランダムジャンプにおける遷移率はDirectAccess数を正規化したもの
- $\theta$はDirectAccess数の逆数
種類 | DF | 指標 | Spearman順位相関係数 | p値 | Pearson相関係数 | p値 |
---|---|---|---|---|---|---|
DA | - | 人気度 | 0.3390 | 3.5002e-28 | 0.1842 | 4.8490e-09 |
BR(順) | 0.85 | 人気度 | 0.4005 | 1.2522e-39 | 0.1602 | 3.7591e-07 |
BR(逆) | 0.85 | 人気度 | 0.4595 | 4.0872e-53 | 0.2186 | 3.1509e-12 |
DA | - | 知名度 | 0.1595 | 4.2521e-07 | 0.0283 | 3.7189e-01 |
BR(順) | 0.85 | 知名度 | 0.2495 | 1.3924e-15 | 0.0512 | 1.0629e-01 |
BR(逆) | 0.85 | 知名度 | 0.3159 | 1.7297e-24 | 0.0766 | 1.5685e-02 |
重み付きPageRankを適用して実験
種類 | 自己遷移率 | DF | 指標 | Spearman順位相関係数 | p値 | Pearson相関係数 | p値 |
---|---|---|---|---|---|---|---|
DA | - | - | 人気度 | 0.3390 | 3.5002e-28 | 0.1842 | 4.8490e-09 |
PR(順) | 0 | 1 | 人気度 | 0.3620 | 3.5703e-32 | 0.0140 | 6.6026e-01 |
PR(順) | 0 | 0.9 | 人気度 | 0.3630 | 2.3611e-32 | 0.0190 | 5.4918e-01 |
PR(順) | 0.1 | 1 | 人気度 | 0.3630 | 2.3611e-32 | 0.0190 | 5.4918e-01 |
PR(順) | 0.5 | 1 | 人気度 | 0.3666 | 5.1557e-33 | 0.0629 | 4.7257e-02 |
PR(順) | 0.1 | 0.9 | 人気度 | 0.3636 | 1.8709e-32 | 0.0259 | 4.1435e-01 |
PR(逆) | 0 | 1 | 人気度 | 0.4237 | 1.2734e-44 | -0.0600 | 5.8408e-02 |
PR(逆) | 0 | 0.9 | 人気度 | 0.4236 | 1.3217e-44 | -0.0618 | 5.1188e-02 |
PR(逆) | 0.1 | 1 | 人気度 | 0.4236 | 1.3217e-44 | -0.0618 | 5.1188e-02 |
PR(逆) | 0.5 | 1 | 人気度 | 0.4262 | 3.4528e-45 | -0.0601 | 5.8146e-02 |
PR(逆) | 0.1 | 0.9 | 人気度 | 0.4241 | 1.0436e-44 | -0.0617 | 5.1523e-02 |
DA | - | - | 知名度 | 0.1595 | 4.2521e-07 | 0.0283 | 3.7189e-01 |
PR(順) | 0 | 1 | 知名度 | 0.3051 | 7.0692e-23 | -0.0011 | 9.7262e-01 |
PR(順) | 0 | 0.9 | 知名度 | 0.3062 | 4.8450e-23 | 0.0042 | 8.9550e-01 |
PR(順) | 0.1 | 1 | 知名度 | 0.3062 | 4.8450e-23 | 0.0042 | 8.9550e-01 |
PR(順) | 0.5 | 1 | 知名度 | 0.3096 | 1.4970e-23 | 0.0452 | 1.5427e-01 |
PR(順) | 0.1 | 0.9 | 知名度 | 0.3075 | 3.0652e-23 | 0.0105 | 7.4153e-01 |
PR(逆) | 0 | 1 | 知名度 | 0.3776 | 4.5351e-35 | -0.0695 | 2.8280e-02 |
PR(逆) | 0 | 0.9 | 知名度 | 0.3775 | 4.6204e-35 | -0.0714 | 2.4281e-02 |
PR(逆) | 0.1 | 1 | 知名度 | 0.3775 | 4.6204e-35 | -0.0714 | 2.4281e-02 |
PR(逆) | 0.5 | 1 | 知名度 | 0.3784 | 3.1586e-35 | -0.0704 | 2.6321e-02 |
PR(逆) | 0.1 | 0.9 | 知名度 | 0.3777 | 4.3971e-35 | -0.0714 | 2.4355e-02 |
ClickStreamで無視されるリンクの抽出
ClickStreamでは、アクセス数が10未満のリンクは無視される
別のAPIからリンク一覧を取得し、リンクは存在するもののClickStreamでは除外されているものを固定値で適用する
種類 | 無いlinkの値 | DF | 指標 | Spearman順位相関係数 | p値 | Pearson相関係数 | p値 |
---|---|---|---|---|---|---|---|
BR(逆) | 0 | 0.85 | 人気度 | 0.4595 | 4.0872e-53 | 0.2186 | 3.1509e-12 |
BR(逆) | $\frac{1}{9}$ | 0.85 | 人気度 | 0.4495 | 1.2198e-50 | 0.1502 | 1.9319e-06 |
BR(逆) | $\frac{1}{5}$ | 0.85 | 人気度 | 0.4481 | 2.6886e-50 | 0.1496 | 2.1387e-06 |
BR(逆) | 1 | 0.85 | 人気度 | 0.4461 | 7.8973e-50 | 0.1487 | 2.4475e-06 |
BR(逆) | 0 | 0.85 | 知名度 | 0.3159 | 1.7297e-24 | 0.0766 | 1.5685e-02 |
BR(逆) | $\frac{1}{9}$ | 0.85 | 知名度 | 0.2424 | 8.9809e-15 | 0.0291 | 3.5899e-01 |
BR(逆) | $\frac{1}{5}$ | 0.85 | 知名度 | 0.2414 | 1.1742e-14 | 0.0291 | 3.5908e-01 |
BR(逆) | 1 | 0.85 | 知名度 | 0.2400 | 1.6959e-14 | 0.0292 | 3.5748e-01 |