當前位置:編程學習大全網 - 源碼下載 - 量化派的模型是基於什麽做的?靠譜嗎?

量化派的模型是基於什麽做的?靠譜嗎?

量化派基於Hadoop、Spark、Storm的大數據風控架構

量化派的信用錢包每天都會獲取大量的用戶的註冊信息等結構化數據以及爬蟲抓取的非結構化數據,還有第三方的接入數據,系統運行產生的日誌數據等等,數據的形式多種多樣,如何保護好、利用好這些數據,是公司重中之重的任務。量化派的業務也決定了公司是數據驅動型的。為了更好的滿足公司日益增長變化的業務,在大數據平臺建設中全面擁抱開源的基礎上,進行了不停叠代設計,對數據平臺中采用的開源軟件進行了深度應用開發,同時還開發了很多契合業務需求的工具軟件,很好的支撐我們去實現普惠金融的理想。

相比我國的網民數量,信貸用戶只占其中的壹小部分,所以我司產品的用戶基數並不是非常大,但是,為了給信貸用戶更準確的信用評級,對於每個信貸用戶我們都會從多個渠道獲取大量的有效數據,這些數據聚合起來也是海量數據規模。公司發展伊始,幾乎將所有的數據都存放在Mysql關系數據庫中,工程師使用標準SQL語句來存儲或者調用數據資源。Mysql很快就遇到了性能瓶頸,雖然可以通過不停地優化整個Mysql集群以應對數據的快速增長,但是面對復雜的數據業務需求,Mysql顯然無法提供最優的解決方案。所以我司最終決定將數據遷移到大數據平臺上,Mysql僅用來存儲需要經常變化的狀態類數據。除了系統運行日誌直接存放在HDFS之中,大量的數據利用HBase來進行管理。HBase中的數據按照不同的數據源存放在不同的表中,每張表按照業務和存儲需求對rowkey進行精心設計,確保海量數據中查詢所需數據毫秒級返回。

根據業務的不同特點,對於常規的數據ETL處理,我們使用MapReduce框架來完成;BI和數據挖掘這些工作都放到了Spark上。這樣壹來,依賴不同任務或不同計算框架間的數據***享情況在所難免,例如Spark的分屬不同Stage的兩個任務,或Spark與MapReduce框架的數據交互。在這種情況下,壹般就需要通過磁盤來完成數據交換,而這通常是效率很低的。為了解決這個問題,我們引入了Tachyon中間層,數據交換實際上在內存中進行了。而且,使用了Tachyon之後還解決了Spark任務進程崩潰後就要丟失進程中的所有數據的問題,因為此時數據都在Tachyon裏面了,從而進壹步提升了Spark的性能。Tachyon自身也具有較強的容錯性,Tachyon集群的master通過ZooKeeper[7]來管理,down機時會自動選舉出新的leader,並且worker會自動連接到新的leader上。

多維度的征信大數據可以使得量化派可以融合多源信息,采用了先進機器學習的預測模型和集成學習的策略,進行大數據挖掘。不完全依賴於傳統的征信體系,即可對個人消費者從不同的角度進行描述和進壹步深入地量化信用評估。公司開發了多個基於機器學習的分析模型,對每位信貸申請人的數千條數據信息進行分析,並得出數萬個可對其行為做出測量的指標,這些都在數秒之內完成。

  • 上一篇:訂酒店住宿哪個軟件好訂酒店住宿哪個軟件好壹點
  • 下一篇:ios11升級什麽了
  • copyright 2024編程學習大全網