大數據分析,大數據開發,數據挖掘所用到技術和工具？

大數據分析是壹個含義廣泛的術語，是指數據集，如此龐大而復雜的，他們需要專門設計的硬件和軟件工具進行處理。該數據集通常是萬億或EB的大小。這些數據集收集自各種各樣的來源：傳感器，氣候信息，公開的信息，如雜誌，報紙，文章。大數據分析產生的其他例子包括購買交易記錄，網絡日誌，病歷，軍事監控，視頻和圖像檔案，及大型電子商務。

大數據分析，他們對企業的影響有壹個興趣高漲。大數據分析是研究大量的數據的過程中尋找模式，相關性和其他有用的信息，可以幫助企業更好地適應變化，並做出更明智的決策。

壹、Hadoop

Hadoop是壹個開源框架，它允許在整個集群使用簡單編程模型計算機的分布式環境存儲並處理大數據。它的目的是從單壹的服務器到上千臺機器的擴展，每壹個臺機都可以提供本地計算和存儲。

Hadoop 是壹個能夠對大量數據進行分布式處理的軟件框架。但是 Hadoop 是以壹種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，即使計算元素和存儲會失敗，它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。Hadoop是高效的，它采用並行的方式工作，通過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數據。此外，Hadoop 依賴於社區服務器，因此它的成本比較低，任何人都可以使用。

Hadoop是輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：

1、高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

2、高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

3、高效性。Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

4、高容錯性。Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架，因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。

二、HPCC

HPCC，High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年，由美國科學、工程、技術聯邦協調理事會向國會提交了"重大挑戰項目：高性能計算與通信"的報告，也就是被稱為HPCC計劃的報告，即美國總統科學戰略項目，其目的是通過加強研究與開發解決壹批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的計劃，該計劃的實施將耗資百億美元，其主要目標要達到：開發可擴展的計算系統及相關軟件，以支持太位級網絡傳輸性能，開發千兆比特網絡技術，擴展研究和教育機構及網絡連接能力。

該項目主要由五部分組成：

1、高性能計算機系統(HPCS)，內容包括今後幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等;

2、先進軟件技術與算法(ASTA)，內容有巨大挑戰問題的軟件支撐、新算法設計、軟件分支與工具、計算計算及高性能計算研究中心等;

3、國家科研與教育網格(NREN)，內容有中接站及10億位級傳輸的研究與開發;

4、基本研究與人類資源(BRHR)，內容有基礎研究、培訓、教育及課程教材，被設計通過獎勵調查者-開始的，長期的調查在可升級的高性能計算中來增加創新意識流，通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯營，和來提供必需的基礎架構來支持這些調查和研究活動;

5、信息基礎結構技術和應用(IITA )，目的在於保證美國在先進信息技術開發方面的領先地位。

三、Storm

Storm是壹個免費開源、分布式、高容錯的實時計算系統。Storm令持續不斷的流計算變得容易，彌補了Hadoop批處理所不能滿足的實時要求。Storm經常用於在實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。Storm的部署管理非常簡單，而且，在同類的流式計算工具，Storm的性能也是非常出眾的。

Storm是自由的開源軟件，壹個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流，用於處理Hadoop的批量數據。Storm很簡單，支持許多種編程語言，使用起來非常有趣。Storm由Twitter開源而來，其它知名的應用企業包括Groupon、淘寶、支付寶、阿裏巴巴、樂元素、Admaster等等。

Storm有許多應用領域：實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調用協議，壹種通過網絡從遠程計算機程序上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫，即數據抽取、轉換和加載)等等。Storm的處理速度驚人：經測試，每個節點每秒鐘可以處理100萬個數據元組。Storm是可擴展、容錯，很容易設置和操作。

四、Apache Drill

為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法，Apache軟件基金會近日發起了壹項名為"Drill"的開源項目。Apache Drill 實現了Google’s Dremel。"Drill"已經作為Apache孵化器項目來運作，將面向全球軟件工程師持續推廣。

該項目將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數據分析工具的互聯網應用提速)。而"Drill"將有助於Hadoop用戶實現更快查詢海量數據集的目的。

"Drill"項目其實也是從谷歌的Dremel項目中獲得靈感：該項目幫助谷歌實現海量數據集的分析處理，包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果等等。

通過開發"Drill"Apache開源項目，組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構，從而幫助支持廣泛的數據源、數據格式和查詢語言。

五、RapidMiner

RapidMiner提供機器學習程序。而數據挖掘，包括數據可視化，處理，統計建模和預測分析。

RapidMiner是世界領先的數據挖掘解決方案，在壹個非常大的程度上有著先進技術。它數據挖掘任務涉及範圍廣泛，包括各種數據藝術，能簡化數據挖掘過程的設計和評價。

功能和特點

免費提供數據挖掘技術和庫；100%用Java代碼(可運行在操作系統)；數據挖掘過程簡單，強大和直觀；內部XML保證了標準化的格式來表示交換數據挖掘過程；可以用簡單腳本語言自動進行大規模進程；多層次的數據視圖，確保有效和透明的數據；圖形用戶界面的互動原型；命令行(批處理模式)自動大規模應用；Java API(應用編程接口)；簡單的插件和推廣機制；強大的可視化引擎，許多尖端的高維數據的可視化建模；400多個數據挖掘運營商支持；耶魯大學已成功地應用在許多不同的應用領域，包括文本挖掘，多媒體挖掘，功能設計，數據流挖掘，集成開發的方法和分布式數據挖掘。

RapidMiner的局限性；RapidMiner 在行數方面存在大小限制；對於RapidMiner，您需要比ODM和SAS更多的硬件資源。

六、Pentaho BI

Pentaho BI 平臺不同於傳統的BI 產品，它是壹個以流程為中心的，面向解決方案(Solution)的框架。其目的在於將壹系列企業級BI產品、開源軟件、API等等組件集成起來，方便商務智能應用的開發。它的出現，使得壹系列的面向商務智能的獨立產品如Jfree、Quartz等等，能夠集成在壹起，構成壹項項復雜的、完整的商務智能解決方案。

Pentaho BI 平臺，Pentaho Open BI 套件的核心架構和基礎，是以流程為中心的，因為其中樞控制器是壹個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執行的商業智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平臺包含組件和報表，用以分析這些流程的性能。目前，Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。 Pentaho的發行，主要以Pentaho SDK的形式進行。

Pentaho SDK***包含五個部分：Pentaho平臺、Pentaho示例數據庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和壹個預先配制好的 Pentaho網絡服務器。其中Pentaho平臺是Pentaho平臺最主要的部分，囊括了Pentaho平臺源代碼的主體;Pentaho數據庫為 Pentaho平臺的正常運行提供的數據服務，包括配置信息、Solution相關的信息等等，對於Pentaho平臺來說它不是必須的，通過配置是可以用其它數據庫服務取代的;可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例，它演示了如何使Pentaho平臺在沒有應用服務器支持的情況下獨立運行;

Pentaho解決方案示例是壹個Eclipse工程，用來演示如何為Pentaho平臺開發相關的商業智能解決方案。

Pentaho BI 平臺構建於服務器，引擎和組件的基礎之上。這些提供了系統的J2EE 服務器，安全，portal，工作流，規則引擎，圖表，協作，內容管理，數據集成，分析和建模功能。這些組件的大部分是基於標準的，可使用其他產品替換之。

七、Druid

Druid是實時數據分析存儲系統，Java語言中最好的數據庫連接池。Druid能夠提供強大的監控和擴展功能。

八、Ambari

大數據平臺搭建、監控利器;類似的還有CDH

1、提供Hadoop集群

Ambari為在任意數量的主機上安裝Hadoop服務提供了壹個逐步向導。

Ambari處理集群Hadoop服務的配置。

2、管理Hadoop集群

Ambari為整個集群提供啟動、停止和重新配置Hadoop服務的中央管理。

3、監視Hadoop集群

Ambari為監視Hadoop集群的健康狀況和狀態提供了壹個儀表板。

九、Spark

大規模數據處理框架(可以應付企業中常見的三種數據處理場景：復雜的批量數據處理(batch data processing);基於歷史數據的交互式查詢;基於實時數據流的數據處理，Ceph:Linux分布式文件系統。

十、Tableau Public

1、什麽是Tableau Public -?大數據分析工具

這是壹個簡單直觀的工具。因為它通過數據可視化提供了有趣的見解。Tableau Public的百萬行限制。因為它比數據分析市場中的大多數其他玩家更容易使用票價。使用Tableau的視覺效果，您可以調查壹個假設。此外，瀏覽數據，並交叉核對您的見解。

2、Tableau Public的使用

您可以免費將交互式數據可視化發布到Web;無需編程技能;發布到Tableau Public的可視化可以嵌入到博客中。此外，還可以通過電子郵件或社交媒體分享網頁。***享的內容可以進行有效硫的下載。這使其成為最佳的大數據分析工具。

3、Tableau Public的限制

所有數據都是公開的，並且限制訪問的範圍很小;數據大小限制;無法連接到[R ;讀取的唯壹方法是通過OData源，是Excel或txt。

十壹、OpenRefine

1、什麽是OpenRefine - 數據分析工具

以前稱為GoogleRefine的數據清理軟件。因為它可以幫助您清理數據以進行分析。它對壹行數據進行操作。此外，將列放在列下，與關系數據庫表非常相似。

2、OpenRefine的使用

清理淩亂的數據;數據轉換;從網站解析數據;通過從Web服務獲取數據將數據添加到數據集。例如，OpenRefine可用於將地址地理編碼到地理坐標。

3、OpenRefine的局限性

Open Refine不適用於大型數據集;精煉對大數據不起作用

十二、KNIME

1、什麽是KNIME - 數據分析工具

KNIME通過可視化編程幫助您操作，分析和建模數據。它用於集成各種組件，用於數據挖掘和機器學習。

2、KNIME的用途

不要寫代碼塊。相反，您必須在活動之間刪除和拖動連接點;該數據分析工具支持編程語言;事實上，分析工具，例如可擴展運行化學數據，文本挖掘，蟒蛇，和[R 。

3、KNIME的限制

數據可視化不佳

十三、Google Fusion Tables

1、什麽是Google Fusion Tables

對於數據工具，我們有更酷，更大版本的Google Spreadsheets。壹個令人難以置信的數據分析，映射和大型數據集可視化工具。此外，Google Fusion Tables可以添加到業務分析工具列表中。這也是最好的大數據分析工具之壹，大數據分析十八般工具。

2、使用Google Fusion Tables

在線可視化更大的表格數據;跨越數十萬行進行過濾和總結;將表與Web上的其他數據組合在壹起；您可以合並兩個或三個表以生成包含數據集的單個可視化;

3、Google Fusion Tables的限制

表中只有前100,000行數據包含在查詢結果中或已映射;在壹次API調用中發送的數據總大小不能超過1MB。

十四、NodeXL

1、什麽是NodeXL

它是關系和網絡的可視化和分析軟件。NodeXL提供精確的計算。它是壹個免費的(不是專業的)和開源網絡分析和可視化軟件。NodeXL是用於數據分析的最佳統計工具之壹。其中包括高級網絡指標。此外，訪問社交媒體網絡數據導入程序和自動化。

2、NodeXL的用途

這是Excel中的壹種數據分析工具，可幫助實現以下方面：

數據導入;圖形可視化;圖形分析;數據表示;該軟件集成到Microsoft Excel 2007,2010,2013和2016中。它作為工作簿打開，包含各種包含圖形結構元素的工作表。這就像節點和邊緣;該軟件可以導入各種圖形格式。這種鄰接矩陣，Pajek .net，UCINet .dl，GraphML和邊緣列表。

3、NodeXL的局限性

您需要為特定問題使用多個種子術語;在稍微不同的時間運行數據提取。

十五、Wolfram Alpha

1、什麽是Wolfram Alpha

它是Stephen Wolfram創建的計算知識引擎或應答引擎。

2、Wolfram Alpha的使用

是Apple的Siri的附加組件;提供技術搜索的詳細響應並解決微積分問題;幫助業務用戶獲取信息圖表和圖形。並有助於創建主題概述，商品信息和高級定價歷史記錄。

3、Wolfram Alpha的局限性

Wolfram Alpha只能處理公開數字和事實，而不能處理觀點;它限制了每個查詢的計算時間;這些數據分析統計工具有何疑問?

十六、Google搜索運營商

1、什麽是Google搜索運營商

它是壹種強大的資源，可幫助您過濾Google結果。這立即得到最相關和有用的信息。