如何通過IBM SPSS Modeler對數據進行處理和建模

由於目前企業客戶的業務量和數據量都在不斷的提高，隨著企業的發展，很多企業的數據存儲都不局限於同壹個數據庫上，如果要對這些存儲在不同數據庫上的數據進行處理和建模，就需要將這些存儲在不同數據庫之間的數據進行有效的整合，本文將介紹通過 IBM SPSS Modeler 如何對不同數據庫之間的數據進行整合，然後進行建模處理。

IBM SPSS Modeler 介紹

IBM SPSS Modeler 是 IBM 在分析與預測領域解決方案的重要組成部分，它是壹組數據挖掘工具，通過這些工具可以采用商業技術快速建立預測性模型，並將其應用於商業活動，從而改進決策過程。Modeler 的界面

圖 1. IBM SPSS Modeler 界面

IBM SPSS Modeler 通過節點對數據進行處理，然後將這些節點連接起來，就形成了對數據處理的壹系列過程，我們將這壹過程稱為數據流。也可以說 IBM SPSS Modeler 是以數據流為驅動的產品，這壹系列節點代表要對數據執行的操作，而節點之間的鏈接指示數據的流動方向。IBM SPSSModeler 將節點分為如下幾種類型：

源：此類節點可將數據導入 IBM SPSS Modeler，如數據庫、IBM SPSS Analytic Server 數據源、文本文件、SPSS Statistics 數據文件、Excel、XML 等。

記錄選項：此類節點可對數據記錄執行操作，如選擇、排序、抽樣、合並和追加等。

字段選項：此類節點可對數據字段執行操作，如過濾、導出新字段和確定給定字段的測量級別等。

圖形：此類節點可在建模前後以圖表形式顯示數據。圖形包括散點圖、直方圖、網絡節點和評估圖表等。

建模：此類節點可使用 IBM SPSS Modeler 中提供的建模算法，如神經網絡、決策樹、貝葉斯網絡、聚類算法、支持向量機、和數據排序等。

輸出：節點生成數據、圖表和可在 IBM SPSS Modeler 中查看的模型等多種輸出結果。

導出：節點生成可在外部應用程序（如 IBM SPSS Data Collection、數據庫、XML、IBM SPSSAnalytic Server 數據或 Excel）中查看的多種輸出。

IBM SPSS Statistics：節點將 IBM SPSS Statistics 數據導入或導出為 SPSS Statistics 數據，以及運行 SPSS Statistics 提供的功能。

IBM SPSS SDAP 介紹

1. SDAP 的安裝

IBM? SPSS? Data Access Pack（簡稱 SDAP）是在 Modeler 的安裝盤附帶的 ODBC 驅動程序，運行 setup.exe 文件以啟動驅動程序安裝，並選擇所有相關的驅動程序即可。安裝的 SDAP 必須和妳使用的 Modeler Server 在同壹臺機器，也就是說如果妳使用本地的 Modeler Server, 那麽就安裝在 Modeler Client 所在的機器，如果使用的 Modeler Server 和 Modeler Client 不在同壹臺機器，那麽就需要安裝在 Modeler Server 所在的機器。

圖 2. SDAP 的安裝

2. 創建 ODBC

這裏以 Windows 7 為例，裝好 SDAP 驅動後，從“開始”菜單中選擇所有程序，選擇管理工具，選擇數據源 (ODBC)，在打開的對話框中選擇系統 DSN 選項卡，然後單擊添加，在打開的對話了狂選擇要添加的數據庫的驅動

圖 3. 選擇驅動

點擊完成按鈕後，配置數據庫的信息，對於不同的數據需要輸入不同的信息，本文將以主流的 IBM DB2、Oracle 和 SQL Server 為例。如圖 4 所示：

圖 4. 創建 DB2 ODBC

在“ODBC DB2 Wire Protocol 驅動程序設置”對話框中需要指定如下內容：

數據源名稱（指定壹個 ODBC 的名字）；

IP 地址，指定 DB2（Oracle，SQL Server） RDBMS 所在服務器的主機名或者 IP 地址；

TCP 端口 ( 對於 DB2，默認是 50000，Oracle 是 1521，SQL Server 是 1433)；

數據庫的名稱（指定需要連接的數據庫）；

點擊“測試連接”後，輸入要連接數據庫的用戶名和密碼，然後單擊確定按鈕。此時會顯示“連接已建立！”的消息，說明配置成功。

對於 Oracle 數據庫來說，

圖 5. 創建 Oracle ODBC

對於 SQL Server 數據庫

打開 IBM SPSS Modeler 客戶端，點擊左下角的 Server 按鈕，選擇要連接的 Modeler Server，這裏需要說明的就是如果妳的 SDAP 裝在和 Modeler Client 在壹臺機器，那麽就選擇 Local Server，如果不在同壹臺機器，而是和單獨的 Modeler Server 裝在壹臺機器，就選在添加按鈕，輸入機器的主機名或者 IP 地址，設置登錄的用戶名和密碼，點擊完成按鈕

連接上 Modeler Server 之後，在源選項雙擊數據庫節點，然後就可以添加數據庫源節點到數據流工作區，雙擊節點，在數據項選擇添加壹個數據庫連接，然後 Modeler Client 會將 Modeler Server 所在機器的所有 ODBC 查詢出來，找到需要連接的數據庫連接信息，輸入用戶名和密碼後，點擊連接按鈕，選擇完成然後進入選擇表，這裏以 SQL Server 為例

點擊完成按鈕後，在表名列點擊選擇按鈕，選擇表名，這裏我們以 dbo.Modeler_Drug1 為例，

選擇表後，節點自動讀取表結構

用同樣的方法再添加兩個數據庫節點，選擇 ODBC 為 DB2 和 Oracle，輸入用戶名和密碼之後，就可以選擇要讀取數據的表名了。這樣就完成了用 Modeler Client 讀取數據庫數據的操作，然後要進行的就是對數據的處理。

首先我們利用 Modeler 的 Merge 節點對 DB2 和 Oracle 中的兩張表的數據進行合並，處理後的結果是我們得到的數據壹部分來自 DB2 數據庫，壹部分來自 Oracle 數據庫。對於來自 Oracle 數據庫的數據，我們取 3 個字段的值

對於來自 DB2 數據庫的數據，我們取 4 個字段

雙擊記錄選項中的 Merge 節點，然後將 DB2 和 Oracle 兩個節點與之連接，雙擊 Merge 節點，可以看到處理後的數據包括來自 DB2 和 Oracle 的 7 個字段

然後我們需要通過 Modeler 的 Append 節點將 Merge 後的數據追加到來自 SQL Server 數據庫的數據。雙擊記錄選項中的 Append 節點，在流工作區中將 Merge 節點和 SQL Server 數據源節點與之連接，這樣得到的就是來自三個數據庫的數據了。

我們還可以通過 Modeler 的其他節點對數據進行進壹步的處理，比如通過選擇節點，可以設置條件來選擇我們需要的數據，或者通過排序節點對某幾個列進行排序等等，這裏就不詳細介紹了。

3.建模

最後要做的就是對處理過的數據進行建模了，首先我們需要設定壹個 Target 列，也就是需要預測的列。我們通過 Modeler 的 Type 節點設置 Target 列，在字段選項雙擊 Type 節點，在流工作區中將 Append 節點與之連接，雙擊 Type 節點，修改 Drug 列的角色為 Target，其他默認為 Input

然後就是選擇我們要使用的模型了，這裏以神經網絡為例，在模型選擇中雙擊神經網絡節點，在流工作區中將 Type 節點與之連接，打開神經網絡節點，可以看到我們是通過所有的角色為 Input 的列來預測覺得為 Target 的列，當然我們可以在這裏修改 Input 和 Target，我們將年齡的角色從 Input 修改為 Target

點擊運行按鈕，生成壹個新的模型塊，該模型塊會被自動連接在流工作區，並帶有指向創建它的建模節點的鏈接。要查看模型的詳細信息，右鍵單擊模型塊並選擇瀏覽（在模型選項板上）或編輯（在工作區上）

雙擊打開生成的模型塊，可以看到哪些值對預測結果的影響最大，線條寬深說明影響越大

4.模型評估

建模完成後，需要評估模型的準確度，就是對壹些記錄進行評分，我們這裏用原始數據進行評估，並將模型預測的結果與實際結果進行比較。

要查看分數或預測值，如上圖將表節點連接到模型塊，雙擊表節點，然後單擊運行。可以從表中看到，模型創建了兩個名為 $N-Age 和 $N-Drug 的字段，用來顯示預測值。

轉載

上一篇:求壹個AT89C52單片機可以點亮的ht16c23的液晶驅動程序？

下一篇:韓版的惡作劇之吻裏面男女主角用的手機是什麽牌子跟型號的啊？

計算機語言分為哪三類?

sniffer為什麽截獲另外兩個機器的通信內容？其原理是什麽？