當前位置:編程學習大全網 - 編程語言 - 在過去的壹周裏,關於機器學習妳了解到了什麽有趣的事情?

在過去的壹周裏,關於機器學習妳了解到了什麽有趣的事情?

我在過去的7個月裏壹直是壹名機器學習工程師。在我做過的幾個項目中,有壹些東西每次都會出現。

當然,因為數據不同,所以不會是壹樣的。但壹個問題的原則往往可以用於另壹個問題。

這裏有壹些事情,我必須提醒自己,每次我開始去工作與壹個新的數據集。

A)看數據。不,真的,看看數據。

當您第壹次獲得壹個數據集時,您應該做的第壹件事是遍歷它並提出壹系列問題。

不要立即尋找答案,過早這樣做可能會給妳的探索過程帶來障礙。

“這壹欄是關於什麽的?”

“這會影響到那個嗎?”

“我應該更多地了解這個變量嗎?”

“為什麽這些數字是這樣的?”

“這些樣本總是這樣嗎?”

妳可以在第二次查閱資料時開始回答。如果這些問題妳自己也回答不了,就去請教專家。

B)與專家交談

數據是數據。它不撒謊。它就是它。但這並不意味著妳得出的某些結論不會因妳自己的直覺而有偏見。

假設妳想預測房價。有些事情妳可能已經知道了。房價在2008年有所下降,有白籬笆的房子收入更高,等等。

但重要的是,不要把這些當成硬性假設。在妳開始建造世界上最好的住房模型之前,妳可能想問壹些有經驗的人壹些問題。

為什麽?

因為這樣可以節省妳的時間。在您制定了A部分的問題列表之後,詢問主題專家可能會節省您數小時的預處理時間。

“哦,我們不再使用這個指標了,妳可以忽略它。”

妳看到的數字實際上與其他東西有關。

C)確保妳回答了正確的問題

當妳開始建立壹個模型時,確保妳已經把妳想要解決的問題在妳的腦海中描繪出來了。

這應該與客戶、項目經理和任何其他主要貢獻者討論。

這個模型的理想結果是什麽?

當然,隨著妳叠代不同的選擇,目標可能會改變,但有目標總是壹個好的開始。

沒有什麽比花兩周時間構建壹個99%準確的模型,然後向客戶展示妳的工作成果,卻發現妳所建模的是錯誤的東西更糟糕的了。

測量兩次。剪壹次。實際上,這句話並不適用於機器學習,因為妳需要制作大量的模型。但妳懂的。

D)特征工程師、特征編碼和數據預處理

有什麽樣的數據?

僅僅是數字上的嗎?

是否有可以納入模型的分類特征?

需要註意的是,分類特征可以被認為是任何類型的數據,這些數據不能以數字形式立即獲得。

在試圖預測房價的問題中,您可能將浴室的數量作為數字特征,而將房子的郊區作為數據的分類(非數字類別)特征。

有不同的方法來處理這兩種情況。

對於numeric,主要的方法是確保所有內容都采用相同的格式。例如,想象壹輛汽車生產的年份。

99'(99年)是18'(2018年)的四倍嗎?

妳可能想把它們改為1999年和2018年,以確保模型捕捉到這兩個數字實際上有多接近。

分類特征的目標是將它們轉化為數字。妳怎麽能把房子郊區變成數字?

假設妳有公園嶺,格林維爾和阿斯科特。

妳能說帕克裏奇= 1,格林維爾= 2和阿斯科特= 3嗎?

但這不意味著帕克裏奇+格林維爾=阿斯科特嗎?

這說不通啊。

壹個更好的選擇是壹次性熱編碼。這意味著給壹個值1表示它是什麽,0表示它不是什麽。

還有許多其他選擇可以將分類變量轉化為數字,並找出最有趣的部分。

E)快速測試,叠代,更新

能否在開始時創建壹個更簡單的度量標準?

可能有壹個理想的方案,妳正在努力,但有沒有壹個更簡單的模型,妳可以放在壹起測試妳的想法?

從最簡單的模型開始,然後逐漸增加復雜性。

不要害怕犯錯,壹次又壹次,壹次又壹次。在測試中犯錯比在生產中犯錯要好。

如果有疑問,請運行代碼。就像數據壹樣,代碼不會說謊。它會照妳說的做。

妳越快發現什麽是無效的,妳就能越快發現什麽是有效的。

F)不斷回顧主要目標

機器學習項目中出現的主要問題通常不是數據或模型,而是參與者之間的溝通。

溝通總是關鍵。

解決壹個問題最終可能會讓妳陷入壹個兔子洞。妳想嘗試壹件事,然後又想嘗試另壹件,現在妳甚至不確定自己在解決什麽問題。

這並不壹定是壹件壞事,壹些最好的解決方案就是這樣找到的。

但是記住,不是每個人都能理解妳的思路。如果有疑問,多溝通。

  • 上一篇:CM6132普通車床電氣控制電路設計
  • 下一篇:什麽是DCS,他好學嗎,它與plc有關聯嗎?
  • copyright 2024編程學習大全網