當前位置:編程學習大全網 - 源碼下載 - 新建了壹個動易網站,現在要將老網站(非動易)的數據導入到新網站裏怎麽做

新建了壹個動易網站,現在要將老網站(非動易)的數據導入到新網站裏怎麽做

如果老站不是動易的系統導入起來會非常麻煩,在官方的處理方式都是要定制出“數據遷移程序”才能導入的,我推薦妳使用新網站當中的采集功能來做,如果有不會的可以到技術中心或者論壇去求助,下面是采集系統的操作示例:

---------------------------------------------------------------

采集系統可以直接深入到站點及其網頁的所有內容,將網頁中的有效數據采集出來(而不僅是網頁或鏈接),並保持數據之間的邏輯關系。對壹個新聞站點,它可以將每個新聞的標題、正文等信息單獨采集出來,分別作為字段存儲在系統中。

采集項目管理

單擊左側管理導航的“采集管理”,出現采集的管理項目:

·文章采集:用於采集設置好的采集項目。

·項目管理:用於建立、管理和復制采集項目。

·過濾管理:用於過濾采集中的標題和正文的字符。

·歷史記錄:已采集的記錄歷史,避免重復采集。

·導入|導出:用於***享遷移采集項目。

文章采集

單擊後臺左側管理導航的“采集管理”->“文章采集”,出現“采集系統項目管理”界面:

參數說明:

·選擇:選擇您要采集的項目,可多選用於批量采集操作。

·狀態:如果采集項目沒有通過審核,則選擇框的顏色為灰暗並不可選,其狀態欄顯示×。您要必須在“項目管理中”連續通過“采樣測試”->“設置屬性”這兩步,才能通過審核。通過審核的采集項目狀態欄顯示√。

·上次采集:顯示最新的采集日期。

黑色:表示上壹次采集的時間。如:2005-5-8 14:45:44。

紅色:表示當天采集的時間。如:2005-5-10 11:31:32(如果過了當天時間則會變成黑色)。

·采集模式:提供“穩定采集”和“快速采集”兩種模式。

->穩定采集:是針對壹臺服務器有多個動易系統時建議選此項,每采集壹篇文章讓服務器休息3秒。這樣當壹臺服務器多個動易系統同時采集的時候服務器不受采集影響。

->快速采集:是針對用戶擁有壹臺獨立的服務器或配置非常好的服務器使用的采集模式。快速采集將發揮采集的最快速度,采集的效率最高。

·歷史記錄:采集項目具有采集統計功能,顯示該項目采集r 成功數和失敗數,點擊成功失敗可看到具體的歷史記錄信息,並提供采集統計功能。

·采集選項:提供“測試采集”和“正文預覽”兩項,分別是來測試建立項目成功後是否有效。

·每頁項目數:您可以下拉選擇每頁顯示的頁數,用於批量采集,比如壹次采集20個項目或更多。

·開始采集:勾選了相應采集項目前的選擇框,再單擊本功能按鈕,系統開始進行項目采集與測試。

項目管理

單擊後臺左側管理導航的“采集管理”->“項目管理”,出現“采集系統項目管理”界面:

參數說明:

·管理導航:系統提供采集管理導航操作。

->管理首頁:鏈接到采集系統項目管理首頁。

->添加新項目:單擊本功能鏈接添加新的采集項目。

·“操作”列功能鏈接說明:

->編輯:修改妳指定的采集項目。

->測試:測試妳的采集項目是否,正確,如果顯示采集的正文頁證明成功,否則會提示您第幾步錯誤。

->屬性:設置妳采集到的文章,放在那個頻道中,那個欄目中,相對應的屬性設置。

->復制:如果所采集網站的模板相同,可利用本功能復制多個項目,以提高采集效率。

如果導入采集項目後,就需要審核,是否是正確的采集項目,您必須點要審核項目的,

!采集項目只有通過測試和屬性這連續兩項後方可通過審核。測試:保證采集項目正確;屬性:制定采集後的儲存位置。

·操作按鈕:系統提供將已選定的項目“刪除”或“批量設置”二個操作按鈕。

->刪除:選擇您要刪除的采集項目(可多選),選擇後單擊“刪除”按鈕即可刪除選定的采集項目。

->批量設置:選擇您要刪除的采集項目(可多選),選擇後單擊“刪除”按鈕,則可批量修改項目的屬性。

具體項目屬性設置請參閱後章“項目管理”的“屬性設置”。

采集的步驟

下面請認真閱讀采集步驟說明,建立您要采集的項目。單擊頂部的“添加新項目”功能鏈接,開始添加新的采集項目。

基本設置

“添加新項目--基本設置”的界面參數說明:

·管理導航:如果是編輯項目,可任意點擊所屬的項目鏈接。

·添加項目名稱:填寫自定義項目名稱。

·網站名稱:填寫自定義網站名稱。

·新聞列表網址:填寫采集網站的的欄目列表頁(即標題較多的列表網頁,不是首頁)。

·網頁編碼格式:提供GB2312、UTF-8和Big5二種編碼格式。國內的網站都是GB2312 默認選項可不選,如果要采集海外網站就要用 UTF-8。

·網站登錄:選擇不需要登錄或設置參數(如果網站需要登錄後才能瀏覽信息剛要選擇此選項)

設置參數中填寫登錄地址、提交地址、用戶參數和密碼參數。

·項目備註:填寫自定義備註信息。

->填寫好相關參數後,單擊“下壹步”按鈕,進行采集列表項目信息設置。

列表設置

本步驟界面中,將顯示基本設置中填寫的采集目標新聞列表頁的信息,並設置采集的列表的相關代碼:

->采集目標網頁:顯示采集目標列表網頁預覽效果。

->采集目標源碼:可以設置是否查看列表網頁的源碼。

->列表設置:設置詳細的列表采集信息。

·列表的開始代碼和列表的結束代碼:填寫上部采集目標源碼框中顯示的采集列表代碼的開始和結束的代碼。請盡量用較少的代碼(如壹行內的代碼),以保證代碼的準確性。

!填寫的代碼必須保證是當前列表頁唯壹的,可單擊右側的“測試代碼”按鈕是測試填寫的代碼否唯壹。

·列表索引分頁:如果列表網頁中有象“上壹頁”、“下壹頁”這樣的分頁,則要設置索引分頁。

->不作設置。註:當前采集的列表頁不分頁。

->設置標簽。若采集的列表分頁中有“下壹頁”和“上壹頁”的分頁內容,則要獲取分頁開始與結尾的代碼。

>>下頁開始和結束標記:填寫下壹頁開始和結束標記代碼。

例:“*** 82 篇新聞 首頁 上壹頁 下壹頁 尾頁”,這是某列表頁的分頁鏈接。

1.首先我們就要得到“下壹頁”的鏈接URL。

例:以下是網頁中的“下壹頁”的URL代碼 以下是引用片段:

“〈a href=’/news/List/List_2_2.html’〉下壹頁〈/a〉”,

那麽我們就要得到:下頁開始標記 以下是引用片段:

“〈a href=’”,下頁結束標記“’〉下壹頁〈/a〉”。

!請註意:開始和結束標記再加上中間采集到的代碼,正好是壹個完整的網絡URL地址,這就是我們要設置的。

2.要正確的得到下壹頁URL地址關鍵是/news/List/List_2_2.html(如果是相對路徑也不用擔心,系統會自動轉換為絕對路徑),您還要單擊右側“測試”按鈕以確認唯壹性。

!因為下壹頁代碼少,所以不可能全部唯壹,但只要有壹處代碼為唯壹就可以了。

>>索引分頁重定向:系統能智能分析網站的相對路徑,如果特殊情況分析不對,請按上述步驟使用此功能。壹般不會用到,如果采集分頁很縱深,並且下壹頁代碼是相對路徑。在下壹步鏈接設置分析到的下壹頁列表的URL和實際不符,應用此功能。在列表設置捕獲相對路徑,如果是動態頁捕獲ID。

例:在索引分頁中填寫實際路徑 /xxx/xx/xxx/news/{$ID} {$ID}就是列表捕獲的相對路徑或動態ID。

->批量生成:如果分頁的代碼都是數字,就可用批量生成自動控制分頁。

>>原字符串:例:/news/index_1.html 它的分頁都為/news/index_2.html,即有數字規律,則可在原字符串中這樣填寫:

“/news/index_{$ID}.html”

其中{$ID}代表分頁數。

>>生成範圍:可寫1-10或10-1,意思是采集1到10頁或10到1頁倒序采集。

->手工添加:

如果對方網頁分頁實在是沒有頭緒,則可用手工添加方式添加各個分頁的URL。

!註:壹行壹個分頁Url地址。事實證明這種效率並不高,為無奈之舉,因為無頭緒的分頁中列表分頁也未必是有頭緒的。

·分析代碼(輔助功能)

在采集頁面時,代碼框中會顯示非常多的代碼,令人頭暈眼化。小巧的分析代碼功能雖不是很強但在壹定程度上輔助您快速找到妳需求的代碼。

使用:

尋找列表頁頭部代碼:在最上面的視圖中,復制列表第壹標題的頭部字符。然後粘貼到“分析網頁字符”框中,選擇向前代碼、字符300,並單擊“分析”按鈕執行分析。這樣就得到了以列表第壹標題為開始以上的300字符,包括列表開頭代碼在內。同理在列表尾部標題粘貼,選擇向後代碼並進行分析,則可很快找到列表尾部代碼。

本功能可用於列表頭、列表尾、下壹頁、標題(選擇前後代碼)、正文等等。

!註:您復制的視圖代碼要求代碼的唯壹性,如果不是唯壹就用不了分析。壹般列表標題、正文沒有重復。

!小技巧:在正文頁,正文的開頭是沒有重復代碼的。復制正文頁的開頭幾個字符到分析代碼,選擇向前,字符數設大些如1000並執行,結果就很好找了。標題、來源、時間、作者和正文的開頭都在這裏。

->填寫好相關參數後,單擊“下壹步”按鈕進行采集鏈接設置。

鏈接設置

本步驟界面中,將顯示列表設置中目標新聞列表頁中采集的信息,並設置相關鏈接信息:

->采集列表:顯示目標列表網頁中采集內容的預覽效果。

->采集目標源碼:可以設置是否查看列表網頁的源碼。

->鏈接設置:設置所采集頁面中的鏈接信息。

·鏈接開始代碼和結束代碼:填寫獲得鏈接的代碼。

如果列表分頁正確後,就獲得的壹排列表標題代碼。鏈接代碼就要獲得標題的URL鏈接,註意是要獲得標題到正文的Url鏈接。

->使用例舉1:

壹個新聞標題的代碼為

以下是引用片段:

“〈td class=’listbg’〉〈a class=’listA’ href=’/Help/Admin/others/394.html’ title=’文章標題:如何去掉圖片隨鼠標而放大或縮小的功能 作 者:壯誌 更新時間:2005-5-13 20:04:23’ target=’_self’〉如何去掉圖片隨鼠標而放大或縮小的功能〈/a〉〈img src=’/images/new.gif’ alt=’最新文章’〉〈/td〉”

則鏈接開始代碼和鏈接結束代碼填寫的信息為:

鏈接開始代碼 以下是引用片段:

“〈a class=’listA’ href=’”

鏈接結束代碼 以下是引用片段:

“’ title=’”

->使用例舉2:

壹個新聞標題的代碼為 以下是引用片段:

〈td valign="top"〉〈a href="/chinese/SPORT-c/859117.htm" class="ty5" target="_blank"〉漢堡大師賽冷門叠爆 阿加西不敵非種子選手出局〈/a〉〈span class="ty6"〉(05/11)〈/span〉〈/td〉

則鏈接開始代碼和鏈接結束代碼填寫的信息為:

鏈接開始代碼 以下是引用片段:

“〈a href="”

鏈接結束代碼 以下是引用片段:

“" class="ty5" target="_blank"〉”

這時獲得的字符正好為可運行的鏈接“/Help/Admin/others/394.html”和“/Help/Admin/others/394.html”。在這裏,如何獲得有效的鏈接是關鍵。

->單擊“下壹步”按鈕對采集的文章進行進行屬性設置。

屬性設置

本步驟為采集的最後壹步,設置所采集文章在本網站中詳細的屬性,如所屬欄目、專題、閱讀點數、文章屬性等信息,並可設置過濾選項、采集數量和采集屬性。

參數說明:

·項目名稱:可重新修改采集的項目名稱。

·所屬頻道、所屬欄目、所屬欄目、文章閱讀點數、文章屬性等項目的設置請參閱文章功能頻道相應的說明進行設置。

·內容頁分頁方式:推薦選擇手動分頁,以對方正文分頁為基礎。註:如果選擇自動分頁,分頁的字符數絕不能為0,否則在生成html時會出現問題。

·過濾選項:過濾采集正文頁中的html字符。

IFRAME:過濾內聯。

Object:過濾Falsh和控件。

Script:過濾js、vbs等腳本。

Class:過濾類。

Div:過濾層。

Span:過濾。

Table、Tr、Td:過濾表格屬性。

Img:過濾圖片。

FONT:過濾字體定義。

A:過濾鏈接,可防止用戶點擊鏈接為其它網址。

Html:過濾。

·采集數量:采集指定文章數或采集列表頁數。如果為空由代表采集所有文章或列表。

·采集屬性:或選擇是否保存圖片、是否對圖片增加水印、倒序采集和立即發布選項。

!如果您要啟用立即發布,發布後要記得生成相應的JS文件。

->填寫好相關參數後,單擊“完成”按鈕,出現成功信息,完成本采集項目設置。

采集信息操作

在添加好采集項目後,下面就可以開始進行信息采集的操作了操作的步驟非常管理,您可以在點擊之間完成大量數據的錄入。

1.單擊後臺左側管理導航的“采集管理”->“文章采集”,出現“采集系統項目管理”界面:

2.在選擇相應項目後,單擊“開始采集”按鈕開始采集信息。

!在采集前,您可以先勾選“測試采集”和“正文預覽”兩項,以測試建立的采集項目采集信息是否有效。

3.系統出現信息采集過程界面

在這個界面中,頂部顯示了信息采集的運行過程與統計信息,單擊“停止采集”按鈕可終止本次采集過程。

每壹個采集的頁面都顯示了標題、作者、來源、關鍵字、頁面地址和其它分頁、圖片等信息:

系統信息采集完成後,出現成功采集的提示信息:

系統自動返回“采集系統項目管理”界面,並在當前采集項目的“上次采集”列顯示紅色的最新采集日期。

4.在信息采集完成後,您可以進入相應的文章功能頻道,查看采集的信息。如果您在采集項目的“屬性設置”中沒有勾選“立即發布”,您要審核後采集的信息才能顯示在前臺。

--------------------------------------------------

如果有不明白的地方直接QQ和我聯系:wufengluo@vip.qq.com

請給分,謝謝!

  • 上一篇:軟件產品著作權登記證如何辦理?
  • 下一篇:android設置控件樣式(邊框顏色,圓角)和圖片樣式(圓角)
  • copyright 2024編程學習大全網