如何用Python和機器學習炒股賺錢

相信很多人都想過讓人工智能來幫妳賺錢，但到底該如何做呢？瑞士日內瓦的壹位金融數據顧問 Ga?tan Rickter 近日發表文章介紹了他利用 Python 和機器學習來幫助炒股的經驗，其最終成果的收益率跑贏了長期處於牛市的標準普爾 500 指數。雖然這篇文章並沒有將他的方法完全徹底公開，但已公開的內容或許能給我們帶來如何用人工智能炒股的啟迪。

我終於跑贏了標準普爾 500 指數 10 個百分點！聽起來可能不是很多，但是當我們處理的是大量流動性很高的資本時，對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。

這壹切都始於我閱讀了 Gur Huberman 的壹篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了壹件發生在 1998 年的涉及到壹家上市公司 EntreMed（當時股票代碼是 ENMD）的事件：

「星期天《紐約時報》上發表的壹篇關於癌癥治療新藥開發潛力的文章導致 EntreMed 的股價從周五收盤時的 12.063 飆升至 85，在周壹收盤時接近 52。在接下來的三周，它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是，這個癌癥研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報道過了，其中甚至包括《泰晤士報》！因此，僅僅是熱情的公眾關註就能引發股價的持續上漲，即便實際上並沒有出現真正的新信息。」

在研究者給出的許多有見地的觀察中，其中有壹個總結很突出：

「（股價）運動可能會集中於有壹些***同之處的股票上，但這些***同之處不壹定要是經濟基礎。」

我就想，能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在數據庫裏面挖掘，幾周之後我發現了壹個，其包含了壹個分數，描述了股票和元素周期表中的元素之間的「已知和隱藏關系」的強度。

我有計算基因組學的背景，這讓我想起了基因和它們的細胞信號網絡之間的關系是如何地不為人所知。但是，當我們分析數據時，我們又會開始看到我們之前可能無法預測的新關系和相關性。

選擇出的涉及細胞可塑性、生長和分化的信號通路的基因的表達模式

和基因壹樣，股票也會受到壹個巨型網絡的影響，其中各個因素之間都有或強或弱的隱藏關系。其中壹些影響和關系是可以預測的。

我的壹個目標是創建長的和短的股票聚類，我稱之為「籃子聚類（basket clusters）」，我可以將其用於對沖或單純地從中獲利。這需要使用壹個無監督機器學習方法來創建股票的聚類，從而使這些聚類之間有或強或弱的關系。這些聚類將會翻倍作為我的公司可以交易的股票的「籃子（basket）」。

首先我下載了壹個數據集：Public Company Hidden Relationship Discovery，這個數據集基於元素周期表中的元素和上市公司之間的關系。

然後我使用了 Python 和壹些常用的機器學習工具——scikit-learn、numpy、pandas、matplotlib 和 seaborn，我開始了解我正在處理的數據集的分布形狀。為此我參考了壹個題為《Principal Component Analysis with KMeans visuals》的 Kaggle Kernel：Principal Component Analysis with KMeans visuals

import numpy as npimport pandas as pdfrom sklearn.decomposition import PCAfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltimport seaborn as sbnp.seterr(divide='ignore', invalid='ignore')# Quick way to test just a few column features# stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv', usecols=range(1,16))stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv')print(stocks.head())str_list = []for colname, colvalue in stocks.iteritems(): if type(colvalue[1]) == str:

str_list.append(colname)# Get to the numeric columns by inversionnum_list = stocks.columns.difference(str_list)stocks_num = stocks[num_list]print(stocks_num.head())

輸出：簡單看看前面 5 行：

zack@twosigma-Dell-Precision-M3800:/home/zack/hedge_pool/baskets/hcluster$ ./hidden_relationships.py

Symbol_update-2017-04-01 ?Hydrogen ? Helium ?Lithium ?Beryllium ?Boron ?\

0 A ? 0.0 ?0.00000 ?0.0 0.0 0.0 ?

1 ? AA ? 0.0 ?0.00000 ?0.0 0.0 0.0 ?

2 AAAP ? 0.0 ?0.00461 ?0.0 0.0 0.0 ?

3 ?AAC ? 0.0 ?0.00081 ?0.0 0.0 0.0 ?

4 AACAY ? 0.0 ?0.00000 ?0.0 0.0 0.0 ?

Carbon ?Nitrogen Oxygen ?Fluorine ... ? Fermium ?Mendelevium ?\

0 ?0.006632 ? 0.0 ?0.007576 ? 0.0 ... ?0.000000 0.079188 ?

1 ?0.000000 ? 0.0 ?0.000000 ? 0.0 ... ?0.000000 0.000000 ?

2 ?0.000000 ? 0.0 ?0.000000 ? 0.0 ... ?0.135962 0.098090 ?

3 ?0.000000 ? 0.0 ?0.018409 ? 0.0 ... ?0.000000 0.000000 ?

4 ?0.000000 ? 0.0 ?0.000000 ? 0.0 ... ?0.000000 0.000000 ?

Nobelium ?Lawrencium ?Rutherfordium ?Dubnium ?Seaborgium ?Bohrium ?Hassium ?\

0 ?0.197030 ?0.1990 0.1990 ?0.0 0.0 ?0.0 ?0.0 ?

1 ?0.000000 ?0.0000 0.0000 ?0.0 0.0 ?0.0 ?0.0 ?

2 ?0.244059 ?0.2465 0.2465 ?0.0 0.0 ?0.0 ?0.0 ?

3 ?0.000000 ?0.0000 0.0000 ?0.0 0.0 ?0.0 ?0.0 ?

4 ?0.000000 ?0.0000 0.0000 ?0.0 0.0 ?0.0 ?0.0 ?

Meitnerium ?

0 0.0 ?

1 0.0 ?

2 0.0 ?

3 0.0 ?

4 0.0 ?

[5 rows x 110 columns]

Actinium ?Aluminum ?Americium ?Antimony Argon ? Arsenic ?Astatine ?\

0 ?0.000000 ? 0.0 0.0 ?0.002379 ?0.047402 ?0.018913 ? 0.0 ?

1 ?0.000000 ? 0.0 0.0 ?0.000000 ?0.000000 ?0.000000 ? 0.0 ?

2 ?0.004242 ? 0.0 0.0 ?0.001299 ?0.000000 ?0.000000 ? 0.0 ?

3 ?0.000986 ? 0.0 0.0 ?0.003378 ?0.000000 ?0.000000 ? 0.0 ?

4 ?0.000000 ? 0.0 0.0 ?0.000000 ?0.000000 ?0.000000 ? 0.0 ?

Barium ?Berkelium ?Beryllium ... ?Tin ?Titanium ?Tungsten ? Uranium ?\

0 0.0 ? 0.000000 0.0 ... ?0.0 ?0.002676 ? 0.0 ?0.000000 ?

1 0.0 ? 0.000000 0.0 ... ?0.0 ?0.000000 ? 0.0 ?0.000000 ?

2 0.0 ? 0.141018 0.0 ... ?0.0 ?0.000000 ? 0.0 ?0.004226 ?

3 0.0 ? 0.000000 0.0 ... ?0.0 ?0.000000 ? 0.0 ?0.004086 ?

4 0.0 ? 0.000000 0.0 ... ?0.0 ?0.000000 ? 0.0 ?0.000000 ?

Vanadium ?Xenon ?Ytterbium ? Yttrium ?Zinc ?Zirconium ?

0 ?0.000000 0.0 0.0 ?0.000000 ?0.000000 0.0 ?

1 ?0.000000 0.0 0.0 ?0.000000 ?0.000000 0.0 ?

2 ?0.002448 0.0 0.0 ?0.018806 ?0.008758 0.0 ?

3 ?0.001019 0.0 0.0 ?0.000000 ?0.007933 0.0 ?

4 ?0.000000 0.0 0.0 ?0.000000 ?0.000000 0.0 ?

[5 rows x 109 columns]

zack@twosigma-Dell-Precision-M3800:/home/zack/hedge_pool/baskets/hcluster$

概念特征的皮爾遜相關性（Pearson Correlation）。在這裏案例中，是指來自元素周期表的礦物和元素：

stocks_num = stocks_num.fillna(value=0, axis=1)X = stocks_num.valuesfrom sklearn.preprocessing import StandardScalerX_std = StandardScaler().fit_transform(X)f, ax = plt.subplots(figsize=(12, 10))plt.title('Pearson Correlation of Concept Features (Elements & Minerals)')# Draw the heatmap using seabornsb.heatmap(stocks_num.astype(float).corr(),linewidths=0.25,vmax=1.0, square=True, cmap="YlGnBu", linecolor='black', annot=True)sb.plt.show()

輸出：（這個可視化例子是在前 16 個樣本上運行得到的）。看到元素周期表中的元素和上市公司關聯起來真的很有意思。在某種程度時，我想使用這些數據基於公司與相關元素或材料的相關性來預測其可能做出的突破。

測量「已解釋方差（Explained Variance）」和主成分分析（PCA）

已解釋方差=總方差-殘差方差（explained variance = total variance - residual variance)。應該值得關註的 PCA 投射組件的數量可以通過已解釋方差度量（Explained Variance Measure）來引導。Sebastian Raschka 的關於 PCA 的文章對此進行了很好的描述，參閱：Principal Component Analysis

# Calculating Eigenvectors and eigenvalues of Cov matirxmean_vec = np.mean(X_std, axis=0)cov_mat = np.cov(X_std.T)eig_vals, eig_vecs = np.linalg.eig(cov_mat)# Create a list of (eigenvalue, eigenvector) tupleseig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) for i in range(len(eig_vals))]# Sort from high to loweig_pairs.sort(key = lambda x: x[0], reverse= True)# Calculation of Explained Variance from the eigenvaluestot = sum(eig_vals)var_exp = [(i/tot)*100 for i in sorted(eig_vals, reverse=True)] cum_var_exp = np.cumsum(var_exp) # Cumulative explained variance# Variances plotmax_cols = len(stocks.columns) - 1plt.figure(figsize=(10, 5))plt.bar(range(max_cols), var_exp, alpha=0.3333, align='center', label='individual explained variance', color = 'g')plt.step(range(max_cols), cum_var_exp, where='mid',label='cumulative explained variance')plt.ylabel('Explained variance ratio')plt.xlabel('Principal components')plt.legend(loc='best')plt.show()

輸出：

從這個圖表中我們可以看到大量方差都來自於預測主成分的前 85%。這是個很高的數字，所以讓我們從低端的開始，先只建模少數幾個主成分。更多有關分析主成分合理數量的信息可參閱：Principal Component Analysis explained visually

使用 scikit-learn 的 PCA 模塊，讓我們設 n_components = 9。代碼的第二行調用了 fit_transform 方法，其可以使用標準化的電影數據 X_std 來擬合 PCA 模型並在該數據集上應用降維（dimensionality reduction）。

pca = PCA(n_components=9)

x_9d = pca.fit_transform(X_std)

plt.figure(figsize = (9,7))

plt.scatter(x_9d[:,0],x_9d[:,1], c='goldenrod',alpha=0.5)

plt.ylim(-10,30)

plt.show()

輸出：

這裏我們甚至沒有真正觀察到聚類的些微輪廓，所以我們很可能應該繼續調節 n_component 的值直到我們得到我們想要的結果。這就是數據科學與藝術（data science and art）中的「藝術」部分。

現在，我們來試試 K-均值，看看我們能不能在下壹章節可視化任何明顯的聚類。

K-均值聚類（K-Means Clustering）

我們將使用 PCA 投射數據來實現壹個簡單的 K-均值。

使用 scikit-learn 的 KMeans() 調用和 fit_predict 方法，我們可以計算聚類中心並為第壹和第三個 PCA 投射預測聚類索引（以便了解我們是否可以觀察到任何合適的聚類）。然後我們可以定義我們自己的配色方案並繪制散點圖，代碼如下所示：

# Set a 3 KMeans clustering

kmeans = KMeans(n_clusters=3)

# Compute cluster centers and predict cluster indices

X_clustered = kmeans.fit_predict(x_9d)# Define our own color map

LABEL_COLOR_MAP = {0 : 'r',1 : 'g',2 : 'b'}

label_color = [LABEL_COLOR_MAP[l] for l in X_clustered]

# Plot the scatter digram

plt.figure(figsize = (7,7))

plt.scatter(x_9d[:,0],x_9d[:,2], c= label_color, alpha=0.5)

plt.show()

輸出：

這個 K-均值散點圖看起來更有希望，好像我們簡單的聚類模型假設就是正確的壹樣。我們可以通過這種顏色可視化方案觀察到 3 個可區分開的聚類。

使用 seaborn 方便的 pairplot 函數，我可以以成對的方式在數據框中自動繪制所有的特征。我們可以壹個對壹個地 pairplot 前面 3 個投射並可視化：

# Create a temp dataframe from our PCA projection data "x_9d"

df = pd.DataFrame(x_9d)

df = df[[0,1,2]]

df['X_cluster'] = X_clustered

# Call Seaborn's pairplot to visualize our KMeans clustering on the PCA projected data

sb.pairplot(df, hue='X_cluster', palette='Dark2', diag_kind='kde', size=1.85)

sb.plt.show()

輸出：

構建籃子聚類（Basket Clusters）

妳應該自己決定如何微調妳的聚類。這方面沒有什麽萬靈藥，具體的方法取決於妳操作的環境。在這個案例中是由隱藏關系所定義的股票和金融市場。

壹旦妳的聚類使妳滿意了，妳就可以設置分數閾值來控制特定的股票是否有資格進入壹個聚類，然後妳可以為壹個給定的聚類提取股票，將它們作為籃子進行交易或使用這些籃子作為信號。妳可以使用這種方法做的事情很大程度就看妳自己的創造力以及妳在使用深度學習變體來進行優化的水平，從而基於聚類或數據點的概念優化每個聚類的回報，比如 short interest 或 short float（公開市場中的可用股份）。

妳可以註意到了這些聚類被用作籃子交易的方式壹些有趣特征。有時候標準普爾和壹般市場會存在差異。這可以提供本質上基於「信息套利（information arbitrage）」的套利機會。壹些聚類則和谷歌搜索趨勢相關。

看到聚類和材料及它們的供應鏈相關確實很有意思，正如這篇文章說的壹樣：Zooming in on 10 materials and their supply chains - Fairphone

我僅僅使用該數據集操作了 Cobalt（鈷）、Copper（銅）、Gallium（鎵）和 Graphene（石墨烯）這幾個列標簽，只是為了看我是否可能發現從事這壹領域或受到這壹領域的風險的上市公司之間是否有任何隱藏的聯系。這些籃子和標準普爾的回報進行了比較。

通過使用歷史價格數據（可直接在 Quantopian、Numerai、Quandl 或 Yahoo Finance 使用），然後妳可以匯總價格數據來生成預計收益，其可使用 HighCharts 進行可視化：

我從該聚類中獲得的回報超過了標準普爾相當壹部分，這意味著妳每年的收益可以比標準普爾還多 10%（標準普爾近壹年來的漲幅為 16%）。我還見過更加激進的方法可以凈掙超過 70%。現在我必須承認我還做了壹些其它的事情，但因為我工作的本質，我必須將那些事情保持黑箱。但從我目前觀察到的情況來看，至少圍繞這種方法探索和包裝新的量化模型可以證明是非常值得的，而其唯壹的缺點是它是壹種不同類型的信號，妳可以將其輸入其它系統的流程中。

生成賣空籃子聚類（short basket clusters）可能比生成買空籃子聚類（long basket clusters）更有利可圖。這種方法值得再寫壹篇文章，最好是在下壹個黑天鵝事件之前。

如果妳使用機器學習，就可能在具有已知和隱藏關系的上市公司的寄生、***生和***情關系之上搶占先機，這是很有趣而且可以盈利的。最後，壹個人的盈利能力似乎完全關乎他在生成這些類別的數據時想出特征標簽（即概念（concept））的強大組合的能力。

我在這類模型上的下壹次叠代應該會包含壹個用於自動生成特征組合或獨特列表的單獨算法。也許會基於近乎實時的事件，這可能會影響那些具有只有配備了無監督學習算法的人類才能預測的隱藏關系的股票組。

上一篇:如何用Python爬取搜索引擎的結果

下一篇:分享答案贏紅包的具體步驟是什麽？(回答問題贏紅包app？)

通過top和jstack確定哪些線程耗盡了CPU？這些線程在做什麽

qq炫舞文件夾裏的1.pak文件怎麽打開？

倒賣別人的視頻犯法嗎

系統擴展名

《英雄聯盟》前職業選手京壹長文自曝假賽經歷，這將對聯賽產生哪些影響？

16個常用生物信息在線工具

JAVA講師張孝祥個人資料？