收集數據主要是通過計算機和網絡。凡是經過計算機處理的數據都很容易收集,比如瀏覽器裏的搜索、點擊、網上購物、……其他數據(比如氣溫、海水鹽度、地震波)可以通過傳感器轉化成數字信號輸入計算機。
收集到的數據壹般要先經過整理,常用的軟件:Tableau和Impure是功能比較全面的,Refine和Wrangler是比較純粹的數據整理工具,Weka用於數據挖掘。
Hadoop是壹個能夠對大量數據進行分布式處理的軟件框架。用於統計分析的R語言有個擴展R + Hadoop,可以在Hadoop集群上運行R代碼。更具體的自己搜索吧。
可視化輸出的工具很多。建議參考wikipedia的“數據可視化”條目。
Tableau、Impure都有可視化功能。R語言也可以繪圖。
還有很多可以用來在網頁上實現可視化輸出的框架或者控件。
大致基於四種技術:Flash(Flex)或者JS(HTML5)或者Java或者ASP.NET(Silverlight)
Flash的有Degrafa、BirdEye、Axiis、Open Flash Chart
JS的有Ajax.org、Sencha Ext JS、Filament、jQchart、Flot、Sparklines、gRaphael、TufteGraph、Exhibit、PlotKit、ExplorerCanvas、MilkChart、Google Chart API、Protovis
Java的有Choosel、google-visualization-java、GWT Chronoscope、JFreeChart
ASP.NET的有Telerik Charts、Visifire、Dundas Chart
目前我比較喜歡d3(Data-Driven Documents),圖形種類豐富,有交互能力,妳可以去d3js.org看看,有很多種圖形的demo。