求抓取網頁內容的程序或代碼（兩層或更多，delphi）

抓取網頁內容，通常大家以為到網上偷數據，然後把到收集到的數據掛到自己網上去。其實也可以將采集到的數據做為公司的參考，或把收集的數據跟自己公司的業務做對比等。

目前網頁采集多為3P代碼為多（3P即ASP、PHP 、JSP）。用得最有代表的就動易科技公司BBS中新聞采集系統，和網上流傳的新浪新聞采集系統等都是用ASP程序來使用，但速度從理論上來說不是很好。如果嘗試用其它軟件的多線程采集是不是更快？答案是肯定的。用DELPHI、VC、VB、JB都可以，PB似乎比較不好做。以下用DELPHI來解釋采集網頁數據。

壹、簡單的新聞采集

新聞采集是最簡單的，只要識別標題、副題、作者、出處、日期、新聞主體、分頁就可以了。在采集之前肯定要取得網頁的內容，所以在DELPHI裏加入idHTTP控件（在indy Clients面板），然後用idHTTP1.GET 方法取得網頁的內容，聲明如下：

function Get(AURL: string): string; overload;

AURL參數，是string類型，指定壹個URL地址字符串。函數返回也是string類型，返回網頁的HTML源文件。比如我們可以這樣調用：

tmpStr:= idHTTP1.Get(‘">

然後定義strTitle、strAuthor、strCopyFrom、strContent：

strTitle:= GetStr(StrSource,’ ’,’ ’):

strAuthor:= GetStr(StrSource,’ <tr><td width="60%">’,’ </td>’):

strCopyFrom:= GetStr(StrSource,’ <td width="40%">’,’ </td></tr>’):

strContent:= GetStr(StrSource,’ ,’ ’):

這樣，就能把文章的標題、副題、作者、出處、日期、內容和分頁分別存儲在以上變量中。

第二步，用循環的辦法，打開下壹頁，並取得內容，加到strContent變量中。