當前位置:編程學習大全網 - 行動軟體 - 常見的大數據采集工具有哪些?

常見的大數據采集工具有哪些?

1、離線搜集工具:ETL

在數據倉庫的語境下,ETL基本上便是數據搜集的代表,包括數據的提取(Extract)、轉換(Transform)和加載(Load)。在轉換的過程中,需求針對具體的事務場景對數據進行治理,例如進行不合法數據監測與過濾、格式轉換與數據規範化、數據替換、確保數據完整性等。

2、實時搜集工具:Flume/Kafka

實時搜集首要用在考慮流處理的事務場景,比方,用於記錄數據源的履行的各種操作活動,比方網絡監控的流量辦理、金融運用的股票記賬和 web 服務器記錄的用戶訪問行為。在流處理場景,數據搜集會成為Kafka的顧客,就像壹個水壩壹般將上遊源源不斷的數據攔截住,然後依據事務場景做對應的處理(例如去重、去噪、中心核算等),之後再寫入到對應的數據存儲中。

3、互聯網搜集工具:Crawler, DPI等

Scribe是Facebook開發的數據(日誌)搜集體系。又被稱為網頁蜘蛛,網絡機器人,是壹種按照壹定的規矩,自動地抓取萬維網信息的程序或者腳本,它支持圖片、音頻、視頻等文件或附件的搜集。

除了網絡中包含的內容之外,關於網絡流量的搜集能夠運用DPI或DFI等帶寬辦理技術進行處理。

  • 上一篇:凱哥叫什麽名字
  • 下一篇:UG是什麽意思
  • copyright 2024編程學習大全網