當前位置:編程學習大全網 - 編程語言 - 為什麽要進行數據挖掘

為什麽要進行數據挖掘

問題壹:為什麽要進行數據挖掘和搜集客戶信息 數據挖掘技術在客戶關系管理中的典型應用

客戶獲取

客戶獲取的傳統方式壹般是通過大量的媒體廣告、散發傳單等方式吸引新客戶。這種方式涉及面過廣不能做到有的放矢而且企業投入太大。數據挖掘技術可以從以往的市場活動中收集到的有用數據(主要是指潛在客戶反應模式分類)建立起數據挖掘模型。企業因此能夠了解真正的潛在客戶的特征分類,從而在以後的市場活動中做到有的放矢而不是傳統的憑經驗的猜想。

客戶細分

細分就是指將壹個大的消費群體劃分成為壹個個細分群體的動作,同屬壹個細分群體的消費者彼此相似,而隸屬於不同細分群體的消費者是被視為不同的。比如將數據庫中的數據按照年齡的不同來組織存放這樣壹個簡單的動作就是細分。細分可以讓用戶從比較高的層次上來觀察數據庫中的數據,細分可以讓人們用不同的方法對待處於不同細分群中的客戶。數據挖掘中的分類、聚類等技術可以讓用戶對數據庫中的數據按類別、年齡、職業、地址、喜好等企業感興趣的屬性進行客戶細分。客戶細分是企業確定產品和服務的基礎.也是建立客戶壹對壹營銷的基礎。

客戶贏利能力分析

就企業的客戶而言,企業的絕大部分利潤是來自於小部分的客戶,而對於企業來說很難確定哪些客戶是高利潤回報,哪些客戶是低利潤回報甚至是負利潤回報的。數據挖掘技術能幫助企業區分利潤回報不同的客戶。從而可以將資源更多的分配在高利潤回報的客戶身上以產生更大的利潤,同時減少低或負利潤回報客戶的投入。為此,在數據挖掘之前,企業應該建立壹套計算利潤回報的優化目標方法。可以是簡單的計算,如某客戶身上產生的收入減去所有相應的支出,也可以是較復雜的公式。然後利用數據挖掘工具從交易記錄中挖掘相應的知識。

客戶的保持

隨著行業中競爭愈來愈激烈,人們普遍認識到獲得壹個新客戶的開支比保持壹個老客戶的開支要大得多。所以如何保持原來老的客戶,不讓他們流失就成為CRM的壹個重要課題。在實際應用中,利用數據挖掘工具為已經流失的客戶建立模型,然後利用這些模型可以預測出現有客戶中將來可能流失的客戶,企業就能研究這些客戶的需求,並采取相應的措施防止其流失,從而達到保持客戶的目的。

問題二:數據挖掘為什麽要對數據進行分類 不太明白您說的分類是什麽意思?是在數據預處理階段,還是挖掘的目的?

如果在數據預處理階段,可能是只對某個領域的數據進行挖掘,從而可以得出更置信的結論;

如果是挖掘目的,也就是模型的輸出,這就比較好理解了。

問題三:數據挖掘具體要做什麽? 數據挖掘是壹個很大的方面。妳會java,這個很好。可以從weka 這個工具學起來,他是壹個java寫的工具包。對於壹個具體問題,比如,怎麽獲取測試數據,對於數據怎麽預處理,這些weka都有直接的接口。

至於妳說的建模,不是壹句話可以說清楚,首先妳肯定要調查這個領域做得比較好的有哪些方法,然後從中至少選取幾種方法,都要實現,做統計,歸納結果,選擇符合妳數據集的。當然妳的數據 *** 壹定要有代表性,就是國際認可的,至於怎麽罰到這些數據,壹般都是比較出名的論文引用的,這些就很可以。用的工具當然有很多,妳不能局限於壹種方式或者壹種工具,不同情況下用不同的工具,根據實際需要選擇。比如妳要做聚類,妳選擇壹個weka,做神經元,妳可能會傾向於matlab,實際情況決定妳選擇的工具。

流程方面:數據獲取------數據預處理-----完成預定的任務 這是壹個大概的流程。這壹套都可以用weka實現。對於數據挖掘而言,都是80%數據+20%算法,數據很重要,算法其實只是壹個測試數據集的作用,這是壹點看法,希望對妳有幫助。

問題四:在數據挖掘之前為什麽要對原始數據進行預處理 數據中包含很多噪聲數據,需要去除不相關的數據,比如如分析無關的字段

了解數據質量,有些數據質量不足以直接使用,如包含過多的缺失值,需要進行缺失值處理

數據字段不能夠直接使用,需要派生新的字段,以更好的進行進壹步的數據挖掘

數據分散,需要將數據進行整合,例如追加表(增加行),或者合並表(增加列)

通過數據的預處理能夠很好的對數據有初步的認識和理解。

數據預處理推薦妳壹個數據挖掘軟件:SmartMining桌面版,它和SPSS modeler 壹樣都是面板操作,預處理能力和計算能力都非常不錯

問題五:為什麽要進行數據采樣? 作為壹個快速發展的領域,數據挖掘的目的是從數據中抽取有效的模式或者是有用的規則。數據挖掘的任務壹般分為關聯規則、分類及聚類。這些任務通常涉及到大量的數據集,在這些數據集中隱藏著有用的知識。稱壹個數據集是大的,數據集要麽有大量的記錄,要麽有大量的屬性,或者是兩者的組合。具有大量的記錄將使與模型匹配所花費的時間變長,而具有大量的屬性將使模型占用的空間變大。大數據集對數據挖掘的算法來說是壹個主要的障礙,在算法進行模式搜索及模型匹配的過程中,經常需要在數據集上遍歷多遍,而將所有的數據集裝入物理內存又非常困難。當數據集越來越大時,數據挖掘領域有面臨著開發適合大數據集的算法,因此,壹個簡單有效的方法就是利用采樣來縮減數據的大小(即記錄的數量),即取壹個大數據集的壹個子集。在數據挖掘的應用中,存在兩種方法進行采樣:壹種方法是某些數據挖掘算法在算法執行過程中並不是使用數據集中的所有數據:另壹種方法是在部分數據上運行算法的結果與在整個數據集上得到的結果是相同的。這與在數據挖掘中使用的兩種采樣基本方法是不謀而合的。壹種方法是將采樣嵌入到數據挖掘的算法中;而另壹種方法是采樣與數據挖掘算法分別運行。但是,利用采樣可能帶來壹個問題:在小概率的情況下其結果不準確,而在大概率的情況下其結果的相似性是非常好的.。其原因是,運行在整個數據集的子集上可能破壞了屬性間的內在相關性,這種相關性在高維數據問題中是非常復雜而且難以理解的。

問題六:數據挖掘為什麽要用java或python 主要是方便,python的第三方模塊很豐富,而且語法非常簡練,自由度很高,python的numpy、scipy、matplotlib模塊可以完成所有的spss的功能,而且可以根據自己的需要按照定制的方法對數據進行清洗、歸約,需要的情況下還可以跟sql進行連接,做機器學習,很多時候數據是從互聯網上用網絡爬蟲收集的,python有urllib模塊,可以很簡單的完成這個工作,有些時候爬蟲收集數據還要對付某些網站的驗證碼,python有PIL模塊,可以方便的進行識別,如果需要做神經網絡、遺傳算法,scipy也可以完成這個工作,還有決策樹就用if-then這樣的代碼,做聚類不能局限於某幾種聚類,可能要根據實際情況進行調整,k-means聚類、DBSCAN聚類,有時候可能還要綜合兩種聚類方法對大規模數據進行聚類分析,這些都需要自行編碼來完成,此外,基於距離的分類方法,有很多距離表達方式可以選用,比如歐幾裏得距離、余弦距離、閔可夫斯基距離、城市塊距離,雖然並不復雜, 但是用python編程實現很方便,基於內容的分類方法,python有強大的nltk自然語言處理模塊,對語言詞組進行切分、收集、分類、統計等。

綜上,就是非常非常方便,只要妳對python足夠了解,妳發現妳可以僅僅使用這壹個工具快速實現妳的所有想法

問題七:數據分析和數據挖掘的深入學習為什麽重要 1、大數據(big data):

指無法在可承受的時間範圍內用常規工具進行捕捉、管理和處理的數據 *** ,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產;

在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數據時代》 中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性) 。

2、數據分析:

是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這壹過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。

數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。

3、數據挖掘(英語:Data mining):

又譯為資料探勘、數據采礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的壹個步驟。數據挖掘壹般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

問題八:數據分析和數據挖掘的區別是什麽?如何做好數據挖掘 大數據、數據分析、數據挖掘的區別是,大數據是互聯網的海量數據挖掘,而數據挖掘更多是針對內部企業行業小眾化的數據挖掘,數據分析就是進行做出針對性的分析和診斷,大數據需要分析的是趨勢和發展,數據挖掘主要發現的是問題和診斷:

1、大數據(big data):

指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據 *** ,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產;

在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數據時代》 中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性) 。

2、數據分析:

是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這壹過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。

數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。

3、數據挖掘(英語:Data mining):

又譯為資料探勘、數據采礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的壹個步驟。數據挖掘壹般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

問題九:在crm過程中為什麽要進行數據挖掘 挖掘大數據,進行分析,這樣才能發揮crm的作用,做好客戶關系管理。

  • 上一篇:找出隱藏的木馬
  • 下一篇:多色防偽印章機的印刷防偽技術類
  • copyright 2024編程學習大全網