因果推理推薦系統的工具箱——RIPS(1)

KDD-2020年Netflix/Spotify通過順序獎勵互動對候選人推薦進行反事實評估

本文旨在準確地離線評估流媒體推薦系統中序列推薦模型的質量，以及如何改進現有的序列推薦模型。現有的方法要麽方差大(主要是數據稀疏造成的)，要麽需要遵循強獨立性假設。作者提出了RIPS，它基於圖相關因果關系假設，通過近似估計目標策略下頁面的總期望收益，對歷史訓練樣本的收益進行加權，用於模型訓練。這種方法使得序列推薦模型具有較低的方差，並允許序列中的項目順序交互。同時，這種方法是漸進的，無偏的。

快速叠代推薦模型需要精準的評估，AB實驗是這個目標的黃金法則，但是AB實驗非常耗費資源。因此，通過線下評測選擇有效的模型，並進行線上實驗是非常重要的。由於生產環境模型的影響，日誌數據存在明顯的暴露偏差，給離線評估帶來很大挑戰。

IPS方法使用反事實的概念和生產戰略的數據來評估目標戰略。簡單來說就是用線上收益的加權平均值來近似目標策略的平均收益。權重是給定狀態下目標策略與在線策略的比值。當狀態空間和動作空間(通常是因果中的處理)比較大時，IPS方法方差高，模型穩定性差，效果會受到影響。雖然忽略序列推薦列表中項目之間的交互可以減少方差，但是會引入偏差。此外，順序推薦列表中項目的交互很可能對實際收入起到決定性作用。例如，如果推薦播放列表中排名靠前的歌曲吸引了用戶，就會大大降低列表中接下來歌曲的跳過率。

在介紹具體方法之前，首先我們對slate推薦進行形式化定義(與序列推薦不同，我們是基於前面的流程壹次推薦壹個Slate，而不是按順序推薦下壹個)。

值得註意的是，作者並沒有假設每個項目或行動之間的利益是獨立的。

在詳細介紹RIPS方法之前，作者對slate推薦場景下的IPS方法進行了形式化定義，並回顧了IPS方法在該場景下的局限性。

IPS方法(從離線策略評估的角度)是基於重要性抽樣的原理，對在線模型的日誌數據中的收益進行加權來估計目標模型在相同場景下的收益。具體的加權方式如下圖所示。

其中，各變量服從下圖所示的分布。可以看出，推薦模型返回的推薦結果服從壹個條件概率，即給定上下文下的推薦模型。同樣，它也服從壹個條件概率，但這個條件概率是未知的，它也是未知的(其實每個條件概率都是要建模的對象之壹，可以是神經網絡之類的模型)。

在slate推薦的場景中，作者在因果圖上建模條件概率來描述商品收入在slate推薦結果中的交互影響。

同時註意，在石板場景中，不能滿足SUTVA [1](穩定的單位治療值保證)，壹塊石板下各個位置的物品選擇是相互影響的。如前所述，雖然每個石板都可以被視為壹個動作(或處理)。但是高維系數的treatment1空間會帶來更大的方差。

本節介紹了slate推薦場景下離線評估目標模型的背景和挑戰，並介紹了作者對該場景下IPS方法的定義。下壹節繼續介紹如何解決IPS中存在的問題。

目前推薦項目的布局和推薦方式多種多樣。在單品流推薦場景下，用戶逐壹接受推薦結果並給出反饋。此時，推薦模式可以是在線推薦，也可以是順序推薦。然而，場景也可能壹次返回壹個石板，但是用戶看不到它。個人認為，這種同時顯示多個結果的推薦模式是類似的。不管是單欄還是雙欄，或者類似的搜索引擎結果，都返回壹個slate。L2R通常用於優化。然而，許多現金推薦模型已經過渡到更高級的“列表式”，即候選推薦。但本質上，這都是為了解決如何返回壹個好的結果集的問題。

[1] G. W .伊本斯和D. B .魯賓。統計、社會和生物醫學科學中的因果推理。劍橋大學出版社，2015。

上一篇:接入有什麽用？

下一篇:股票畫圖工具(股票畫圖工具詳解)