當前位置:編程學習大全網 - 源碼下載 - PR的算法介紹

PR的算法介紹

PageRank

基本思想:如果網頁T存在壹個指向網頁A的連接,則表明T的所有者認為A比較重要,從而把T的壹部分重要性得分賦予A。這個重要性得分值為:PR(T)/C(T)

其中PR(T)為T的PageRank值,C(T)為T的出鏈數,則A的PageRank值為壹系列類似於T的頁面重要性得分值的累加。

PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn))

A代表頁面A

PR(A)則代表頁面A的PR值

d為阻尼指數。通常認為d=0.85

t1…tn 代表鏈接向頁面A的頁面t1到tn

C代表頁面上的外鏈接數目。C(t1)即為頁面t1上的外鏈接數目

從計算公式可以看到,計算PR值必須使用叠代計算才能得到。

優點:是壹個與查詢無關的靜態算法,所有網頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。

不足:人們的查詢具有主題特征,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網頁的歧視。

Topic-Sensitive

(主題敏感的PageRank)

基本思想:針對PageRank對主題的忽略而提出。核心思想:通過離線計算出壹個PageRank向量集合,該集合中的每壹個向量與某壹主題相關,即計算某個頁面關於不同主題的得分。主要分為兩個階段:主題相關的PageRank向量集合的計算和在線查詢時主題的確定。

優點:根據用戶的查詢請求和相關上下文判斷用戶查詢相關的主題(用戶的興趣)返回查詢結果準確性高。

不足:沒有利用主題的相關性來提高鏈接得分的準確性。

Hilltop

基本思想:與PageRank的不同之處:僅考慮專家頁面的鏈接。主要包括兩個步驟:專家頁面搜索和目標頁面排序。優點:相關性強,結果準確。不足:專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性,而專家頁面的質量和公平性難以保證;忽略了大量非專家頁面的影響,不能反映整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適合對於查詢排序進行求精。

  • 上一篇:vi格式的文件用什麽打開?
  • 下一篇:快普M6到底有哪些優勢?
  • copyright 2024編程學習大全網