當前位置:編程學習大全網 - 編程語言 - 淺談對數據分析、數據挖掘以及大數據的認識

淺談對數據分析、數據挖掘以及大數據的認識

導讀可以說,我們每天都被大量的數據充斥著,生活以及工作時時刻刻離不開數據也離不了數據,不過在大數據領域裏,數據分析、數據挖掘以及大數據他們是不壹樣的,很多人在剛入門的時候,這幾個概念經常會分不清,問十個人這幾個詞的意思,妳可能會得到十五種不同的答案。今天小編就通過壹種比較牽線的例子來和大家聊聊對數據分析、數據挖掘以及大數據的認識。

首先來介紹壹下數據與信息之間的區別。

數據是什麽,信息又是什麽,其實最本質的區別就是,數據是存在的,有跡可循的,不需要進行處理的,而信息是需要進行處理的。

例如妳想要為家裏買壹個新衣櫃,那麽首先就是要去測量室內各處的長、寬、高,對於這些數據,只要我們測量就可以得到準確的值,因為這些數據是客觀存在的,這些客觀存在的值就是數據。

而信息卻不同,妳來到家具商場購買衣櫃,妳會說,我們放3米的衣櫃放在房間剛剛好,2米的有些短,看著不大氣,4米的又太大了,不劃算。那這種就屬於信息,這些時候經過大腦進行了思考,進行了主觀判斷的,而妳得出這些信息的依據就是那些客觀存在的數據。

其次,數據分析是對客觀存在的或者說已知的數據,通過各個維度進行分析,得出壹個結論。

例如我們發現公司的APP用戶活躍度下降:

從區域上看,某區域的活躍度下降的百分比

從性別方面看,男生的活躍度下降的百分比

從年齡來看,20歲~30歲的活躍度下降的百分比

等等,這樣不同的業務類型去看過去壹段時間發展的趨勢來做結論判斷。

數據挖掘不僅僅用到統計學的知識,還要用到機器學習的知識,這裏會涉及到模型的概念。數據挖掘具有更深的層次,來發現未知的規律和價值。而且更註重洞察數據本身的關系,從而獲得壹些非顯型的結論,這是我們從數據分析中無法得到了,例如關聯分析可以知道啤酒與尿布的關系、決策樹可以知道妳購買的概率、聚類分析可以知道妳和誰類似,等等,重在從各個維度去發現數據之間的內在聯系

因此兩者的目的不壹樣,數據分析是有明確的分析群體,就是對群體進行各個維度的拆、分、組合,來找到問題的所在,而數據發挖掘的目標群體是不確定的,需要我們更多是是從數據的內在聯系上去分析,從而結合業務、用戶、數據進行更多的洞察解讀。

例如壹個人想找壹個女朋友,他可以很快很容易的了解到其外在相關因素情況,例如身高、體重、收入、學歷等情況,但是他沒有辦法從這些數據中知道這個女孩是否適合自己、她的性格與自己是否能夠相處融洽……這時我他就需要從壹些日常行為的數據進行推斷,壹種是主觀的推斷,他覺得、他估計、他認為,能不能在壹起。

另壹種是客觀+主觀的推斷,比如整合社交平臺數據(可以知道朋友圈、微博的日常內容、興趣愛好等等),和自己的行為進行數據挖掘,來看看數據內在的匹配度有多少,這時候,他就可以判斷出,他們在壹起的概率有99%,從而建立信心,開始行動.....

當然統計學上講,100%的概率都未必發生,0%的概率都未必不發生,這只是小概率事件,不要讓這個成為妳脫單的絆腳石。

最後,思考的方式不同,壹般來講,數據分析是根據客觀的數據進行不斷的驗證和假設,而數據挖掘是沒有假設的,但妳也要根據模型的輸出給出妳評判的標準。

我們經常做分析的時候,數據分析需要的思維性更強壹些,更多是運用結構化、MECE的思考方式,類似程序中的假設

分析框架(假設)+客觀問題(數據分析)=結論(主觀判斷)

而數據挖掘大多數是大而全,多而精,數據越多模型越可能精確,變量越多,數據之間的關系越明確

什麽變量都要,先從模型的意義上選變量(大而全,多而精),之後根據變量的相關系程度、替代關系、重要性等幾個方面去篩選,最後全扔到模型裏面,最後從模型的參數和解讀的意義來判斷這種方式合不合理。

分析更多依賴於業務知識,數據挖掘更多側重於技術的實現,對於業務的要求稍微有所降低,數據挖掘往往需要更大數據量,而數據量越大,對於技術的要求也就越高需要比較強的編程能力,數學能力和機器學習的能力。如果從結果上來看,數據分析更多側重的是結果的呈現,需要結合業務知識來進行解讀。而數據挖掘的結果是壹個模型,通過這個模型來分析整個數據的規律,壹次來實現對於未來的預測,比如判斷用戶的特點,用戶適合什麽樣的營銷活動。顯然,數據挖掘比數據分析要更深壹個層次。數據分析是將數據轉化為信息的工具,而數據挖掘是將信息轉化為認知的工具。

以上就是小編今天給大家整理發送的關於“淺談對數據分析、數據挖掘以及大數據的認識”的相關內容,希望對大家有所幫助。想了解更多關於數據分析及人工智能就業崗位分析,關註小編持續更新。

  • 上一篇:哪裏有模仿fox片頭的片頭制作軟件
  • 下一篇:編程論壇1001編程論壇
  • copyright 2024編程學習大全網