當前位置:編程學習大全網 - 編程語言 - VFP技術在網頁數據采集中開發的方向分析

VFP技術在網頁數據采集中開發的方向分析

VFP技術在網頁數據采集中開發的方向分析

 隨著信息技術對高校教育發展的變革,數字化資源建設在高校學習資源建設,構建學習型組織中扮演著重要角色。數字資源建設是滿足現代化教學所需的壹項重要教學基礎資源,是學校、教師和學生進行學習,交流,分享,創新的重要原動力。各高校都把數字化資源建設當作重點工作開展。然而不少高校面臨著數字資源建設經費不足,除了購置外部資源外,同時也要內部開發壹些數字資源。對於數字資源的建設,各高校的數字資源建設有***性需求,也有個性的需求,並非外部采購能夠解決。在這樣的前提下,筆者嘗試運用Visual FoxPro(以下簡稱VFP)技術構建可采集網頁數據的系統,用以采集無版權問題的在線學習資源,將不同來源的學習資源匯聚於同壹數據庫,來構建主題數字資源庫。

 1、高校數字化資源采集需要VFP技術

 1.1 滿足基礎服務需求的角度選型

 從提供基礎服務角度看,選用何種技術進行開發首先是從需求出發,是否能滿足實際工作需要,系統是否能運行穩定、高效。而不僅僅是追求先進性。並非最先進的就是最能滿足需要的。筆者進行的數據采集只是數字資源建設前期的數據整理階段的階段性的工具,在時間節點範圍能能夠滿足高校對數據的抓取工作。因此,在需求明確導向前提下,用最經濟的手段來實現基礎服務的穩定和高效運行是最合理的。VFP兼有開發工具和數據庫兩方面特征,能夠做到與操作與數據的無縫銜接,在前期的數據采集與整理上完全能夠滿足用戶需求。

 1.2 存量用戶與技術衍生性

 VFP數據庫在過去十年中在高校的普及應用率較高,不少教學服務部門的管理系統都是基於VFP開發的,如不少高校的教務系統,學工系統都是基於VFP開發等。因此,高校中的VFP存量用戶較多,在新系統建設中,首先要考慮的系統對接的兼容性,後續增加的系統最好能和之前的系統能夠無縫對接。而且,由於VFP的簡單易學,在系統使用和維護中,不少老師也逐漸摸索、學習,逐漸掌握了 VFP的基礎開發技能。因此,VFP來開發數據采集系統是壹個可以被應用環境接受和用戶認可的工具。

 1.3 VFP自身的技術優勢

 VFP是開發工具同時其本身也是數據庫。VFP數據庫發展到現在已經相當成熟,VFP系統小巧,相比Oracle等數據庫,其不會占用太多的存儲空間。相比其他數據庫,VFP的應用程序開發的效率較高,相比壹些開發語言,VFP本身強大的查詢功能。所以VFP是集開發和數據庫的綜合體,簡單易學,操作靈活。同時,VFP互操作性和對網絡支持性較強。

 2、網頁數據采集系統設計

 2.1 VFP技術介紹

 VFP是Microsoft公司推出的數據庫開發軟件,提供多種可視化編程工具,最突出的是面向對象編程。支持結構化查詢語言(SQL)命令和函數。由於其函數豐富、靈活方便、問世較早,在國內壹段時期廣為流行。目前最新的版本是9.0。時至今日,由於其穩定高效、易學易用,仍有大批高校將其作為小型數據庫使用,不少網絡教學管理系統前臺軟件也選用VFP開發。

 2.2 系統設計目標

 我們將VFP開發的網頁數據采集系統應用於學校數字化資源建設子項目?開源版權的學習視頻內容的采集,具體來說,是針對國外多所名校提供的開源版權視頻源網址進行分析和數據爬取,最終將開源版權的文字和視頻數據提取、索引並保存入學校的資源庫。

 2.3 系統功能結構

 VFP開發的網頁數據采集系統采用了模塊化的設計,它由壹些核部件和插件模塊構成。核心部件可以配置,系統部件由管理控制臺、抓取順序控制器、中央控制器、流控制處理器、多線程控制組成。管理控制臺允許操作者進行參數設置和任務管理。抓取順序控制器控制爬取活動的排序和相關屬性。抓取任務通過排序後將任務信息傳遞給中央控制器進行初始化。中央控制器吞吐隊列的URL信息和完成的URL 信息,並將任務指令傳遞給采集工作的'核心工作區?流控制處理器。核流控制處理器的任務處理是呈流式運作的,包括預讀、提取和寫入三個部分。流控制處理器的工作是多線程了,保證了整個采集的高效率。

 在采集的核心工作區?在流控制處理器中,工作的流程是這樣的:首先在接到中心控制器傳送來的隊列URL後,開始預讀,預讀主要是做壹些預處理工作,對處理進行延遲和重新處理。接著,進行提取工作,提取主要是獲得http資源,進行ip轉換,發出http頭請求和接收響應,進而抽取目標HTML的標簽。最後進行寫入,寫入的工作是存儲爬取日誌,返回爬取到的內容和抽取特性,過濾並作寫存儲的動作。這壹流程完成後,流控制處理器會提交完成的URL給中央控制器,做最後的維護。

 3、系統實現

 3.1 程序運行的硬件環境

 操作系統為Microsoft Windows XP或更高,內存為1G或更高,硬盤占用約230MB,數據爬取采用4MB ADSL寬帶。

 3.2 核心程序節錄

 3.3 實驗結論

 我們將VFP開發的網頁數據采集系統應用於學校數字化資源建設子項目?開源版權的學習視頻內容的采集,針對國外多所名校提供的開源版權視頻源網址進行分析和數據爬取,並測試VFP開發的網頁數據采集系統的性能,為後續的改進提供測試。我們確立四個指標,從數據采集的正確率、召回率、覆蓋率和程序效率四個方面進行測試。正確率是指VFP開發的網頁數據采集系統能否正確的提取URL,正確率越高,爬取的效果越好;召回率是指程序爬蟲探測到的數據與能夠爬取回來的數據的比值,召回率越高,爬蟲的效果越好。覆蓋率是指對指定網站采集的覆蓋率,覆蓋率要全;程序的效率是說VFP開發的網頁數據采集系統采集的速度和穩定性。經過全天24小時無故障,不間斷的運行,累計采集網頁數據300多萬頁。數據采集的正確率、召回率、覆蓋率和程序效率均得到理想的效果。

 4、結束語

 本文闡述了壹個基於VFP技術的網頁數據采集爬蟲的壹種工作流程和爬行算法,從鏈接和網頁內容的分析和提取進行爬行控制,給出了具體實施的核心程序,測試結果比較滿意。基於VFP技術的網頁數據采集系統本身雖然屬於輕量級,但針對高校數字化資源建設的需求現狀,本文提出解決方案經過證明,能夠高效的完成網頁數據采集,是壹種經濟、實用、穩定和高效的網頁數據采集方案。其對高校的數字化資源建設起重要作用。但是本系統的性能仍需提高,尤其在URL的優先權選擇上需要進壹步改進。

  • 上一篇:如何學習Javascript
  • 下一篇:電腦被黑客攻擊,密碼被改,關閉了電腦,再啟動就開不了了。求大神給解決方法。已經打不開了。
  • copyright 2024編程學習大全網