a. 根據 原始數據 得到1 - k項集,再根據support(支持度)得到頻繁1項集,頻繁2項集,頻繁3項集...... 壹直到頻繁k項集,這壹步是運算量最大的,也是hadoop集群的瓶頸。
b. 根據 置信度 confidence ,得到所有強規則。
因為 b 步驟太簡單,為了省事,我沒寫在算法裏,算法裏只求出了所有頻繁集。而這壹步驟也分為兩步:
a. 叠代得到K項集,具體叠代方法就是將上壹次叠代的結果k-1項集和1項集進行組合,從而得到K項集。
b. 根據支持度,得到頻繁K項集,不斷叠代a,b步驟,直到K為最大為止。