國內做大數據解決方案的公司有哪些？

隨著“大數據時代”的來臨，企業越來越重視數據的作用，數據給企業帶來的價值也越來越多。本文檔將介紹大數據給企業帶來的機遇與挑戰以及企業的大數據解決方案。

第壹步先搞清楚什麽是大數據？他不是簡單的大量數據或海量數據，而是有著4V特征的數據金礦。他給我們的企業會帶來機遇與挑戰。

第二步我們根據大數據的特征，分析企業大數據平臺要迎接大數據的挑戰，應該具備什麽樣的能力。

第三部分，基於大數據平臺要求，我們提出壹個企業大數據的技術解決方案，介紹解決方案是如何解決大數據難題。

最後我看壹看大數據應用當前存在的問題，未來將會怎樣發展。

什麽是大數據？

從數據角度看，大數據不是簡單的大和多，大數據致電壹把柒三耳零壹泗貳五領，而是有著4V的特征。簡單說就是體量大、樣式多、速度快、價值低。

體量大：最新研究報告，到2020年，全球數據使用量預計暴增44倍，達到35.2ZB。我們說大數據時，壹般企業數據量要達到PB級才能稱為大數據。

樣式多：除了量大，大數據還包括了結構化數據和非結構化數據，郵件，Word,圖片，音頻信息，視頻信息等各種類型數據，已經不是以往的關系型數據庫可以解決的了。

速度快：這裏說的是數據采集的速度，隨著電子商務、移動辦公、穿戴設備、物聯網、智能小區等等的發展，數據產生的速度已經演進到秒級。企業要求能夠實時獲取數據，實時進行決策。

價值低：指的是價值密度，整個數據的價值是越來越高，但是因為數據量的壯大，數據價值密度也相應降低，無價值數據要占據大部分，企業需要從海量的業務中尋找價值。

從開發人員角度看，大數據和以往的數據庫技術、數據倉庫技術是不同的，他代表以Hadoop、Spark為首的壹系列新技術。

這類技術的顯著特點是：分布式、內存計算。

分布式：簡單的說，分布式就是將復雜的、費時的任務拆分為多個細小的任務，並行處理。這裏的任務就包含了數據采集、數據存儲、數據處理。

內存計算：實質上就是CPU直接從內存而非硬盤上讀取數據，並對數據進行計算、分析。內存計算非常適合處理海量的數據，以及需要實時獲得結果的數據。比如可以將壹個企業近十年幾乎所有的財務、營銷、市場等各方面的數據壹次性地保存在內存裏，並在此基礎上進行數據的分析。

數據挖掘：大數據的核心實際上還應該包括數據挖掘技術，這是壹個和統計學聯系緊密的技術，粗略的劃分為分類、聚類、預測、關聯四大類，可從大量的、不完全的、模糊的數據中利用數學方法，提取出潛在的規律或知識。

大數據平臺要求

大數據的能力分為數據采集、數據存儲、數據計算或處理、數據挖掘、數據展現五個方面。

數據采集：需要對於海量數據、實時數據的采集能力，這是數據利用的第壹步。

數據存儲：對應大數據特點，需要大容量、高容錯、高效率的存儲能力，這是數據利用的基礎。

數據計算：需要強大、廉價、快速的數據處理貨計算能力，強大對應大數據的量大、類型多，廉價對應大數據的價值密度低，快速對應大數據的速度快，這是大數據能夠發展的關鍵。

數據挖掘：要能夠全角度、多方位的立體分析挖掘數據價值，應用好數據挖掘才能將數據轉化為價值，這是數據利用的核心。

數據展現：多途徑、直觀、豐富的數據展現形式是數據的外在形象，這是數據應用的亮點，是能夠得到用戶認可的窗口。

以上是對於大數據平臺需要解決的問題，必須具備的能力，數據提出的要求。

技術解決方案

企業大數據解決方案從數據處理流程上分為數據采集層、數據存儲層、數據計算層、數據挖掘層、數據展現層，每壹層解決大數據所需的關鍵難題。其中標黃的部分是傳統數據處理技術。

數據采集層：

數據采集技術分為實時采集和定時采集，實時采集采用Oracle GoldenGate等工具，實時增量采集數據，保證數據的及時性；定時采集采用SAP Data Services等工具相結合的方式，定時抽取數據，主要用於大批量、非實時性數據。加入kettle、sqoop等分布式ETL工具，豐富多樣化數據抽取服務，同時加入整合實時數據的kafka服務，處理大量實時數據。

數據存儲層：

數據存儲區在傳統oracle的基礎上，加入分布式文件系統、分布式列式數據庫、內存文件系統、內存數據庫、全文搜索等模塊。其中，分布式文件系統ceph由於擁有數據分布均衡，並行化度高等特性，所以用於存儲非結構化數據；分布式文件系統Hdfs由於擁有極佳的擴展性和兼容性，用於存儲其他結構化數據；列式存儲數據庫hbase主要用於存儲特定需求的海量數據，以供運算查詢等服務。

數據計算層：

計算層采用標準SQL查詢、全文搜索、交互分析Spark、實時數據處理Streaming、離線批處理、圖計算Graph X等技術，對結構化數據、非結構化數據、實時數據、大批量數據進行數據計算處理。

核心計算方式spark內存計算引擎的優勢：

輕量級快速處理。

易於使用，Spark支持多語言。

支持復雜查詢。

實時的流處理。

可以與Hadoop和已存Hadoop數據整合。

可以與Hive整合?

數據挖掘層：采用Spark_Mllib、R、Mhout等分析工具，依據模型分析引擎創建模型、算法庫。由模型算法庫對模型進行訓練，生成模型實例，最後依據模型實例進行實時決策及離線決策。

數據展現層：提供門戶展現、數據圖表、電子郵件、辦公軟件等多種數據分析方式，在展現途徑上可支持大屏幕、電腦桌面、移動終端等。

結束語

隨著高性能計算機、海量數據的存儲和管理的流程的不斷優化，技術能夠解決的問題終將不會成為問題。真正會制約或者成為大數據發展和應用瓶頸的有三個環節：

第壹、數據收集和提取的合法性，數據隱私的保護和數據隱私應用之間的權衡。

任何企業或機構從人群中提取私人數據，用戶都有知情權，將用戶的隱私數據用於商業行為時，都需要得到用戶的認可。然而，目前，中國乃至全世界對於用戶隱私應當如何保護、商業規則應當如何制定、觸犯用戶的隱私權應當如何懲治、法律規範應當如何制定等等壹系列管理問題都**滯後於大數據的發展速度。未來很多大數據業務在最初發展階段將會遊走在灰色地帶，當商業運作初具規模並開始對大批消費者和公司都產生影響之後，相關的法律法規以及市場規範才會被迫加速制定出來。可以預計的是，盡管大數據技術層面的應用可以無限廣闊，但是由於受到數據采集的限制，能夠用於商業應用、服務於人們的數據要遠遠小於理論上大數據能夠采集和處理的數據。數據源頭的采集受限將**限制大數據的商業應用。

第二、大數據發揮協同效應需要產業鏈各個環節的企業達成競爭與合作的平衡。

大數據對基於其生態圈中的企業提出了更多的合作要求。如果沒有對整體產業鏈的宏觀把握，單個企業僅僅基於自己掌握的獨立數據，無法了解產業鏈各個環節數據之間的關系，對消費者做出的判斷和影響也十分有限。在壹些信息不對稱比較明顯的行業，例如銀行業以及保險業，企業之間數據***享的需求更為迫切。例如，銀行業和保險業通常都需要建立壹個行業***享的數據庫，讓其成員能夠了解到單個用戶的信用記錄，消除擔保方和消費者之間的信息不對稱，讓交易進行的更為順利。然而，在很多情況下，這些需要***享信息的企業之間競爭和合作的關系同時存在，企業在***享數據之前，需要權衡利弊、避免在***享數據的同時喪失了其競爭優勢。此外，當很多商家合作起來，很容易形成賣家同盟而導致消費者利益受到損失，影響到競爭的公平性。大數據最具有想象力的發展方向是將不同的行業的數據整合起來，提供全方位立體的數據繪圖，力圖從系統的角度了解並重塑用戶需求。然而，交叉行業數據***享需要平衡太多企業的利益關系，如果沒有中立的第三方機構出面，協調所有參與企業之間的關系、制定數據***性及應用的規則，將**限制大數據的用武之地。權威第三方中立機構的缺乏將制約大數據發揮出其最大的潛力。

第三、大數據結論的解讀和應用。

大數據可以從數據分析的層面上揭示各個變量之間可能的關聯，但是數據層面上的關聯如何具象到行業實踐中？如何制定可執行方案應用大數據的結論？這些問題要求執行者不但能夠解讀大數據，同時還需深諳行業發展各個要素之間的關聯。這壹環節基於大數據技術的發展但又涉及到管理和執行等各方面因素。在這壹環節中，人的因素成為制勝關鍵。從技術角度，執行人需要理解大數據技術，能夠解讀大數據分析的結論；從行業角度，執行人要非常了解行業各個生產環節的流程的關系、各要素之間的可能關聯，並且將大數據得到的結論和行業的具體執行環節壹壹對應起來；從管理的角度，執行人需要制定出可執行的解決問題的方案，並且確保這壹方案和管理流程沒有沖突，在解決問題的同時，沒有制造出新的問題。這些需求，不但要求執行人深諳技術，同時應當是壹個卓越的管理者，有系統論的思維，能夠從復雜系統的角度關聯地看待大數據與行業的關系。此類人才的稀缺性將制約大數據的發展。

上一篇:古詩詠柳賀知章的意思

下一篇:金晶和的演藝經歷