當前位置:編程學習大全網 - 源碼下載 - C#中將html轉換為xml的實現

C#中將html轉換為xml的實現

我給妳些我的建議吧

HTML的語法格式比XML寬松多了,真正XML格式的網頁是XHTML,也就是下壹代HTML,他的格式和XML差不多,很嚴謹的。

如果妳不想利用某些HTML和XML互轉工具,自己編的話,有壹定難度。

1.HTML的節點可以沒末節點,妳需要不停掃描<,>,/,這三個符號以檢查是否漏掉末節點,並補充。

2.HTML節點還可以不規則嵌套,妳需要對已讀入節點進行順序存儲,或用棧的數據結構來存儲,並驗證其層次正確性,最終正確順序的節點,期間還得緩存節點值,或屬性值。

3.HTML不同於XML,許多HTML節點有特殊的意義,許多HTML節點比如<b>,<hr/>都需要經過特殊處理才行。

在技術上,為保證性能,還要在壹下方面有加強。

1.強大的字符串掃描,和解析器,此工作也巨大,但網上源碼很多,建議到google英文裏搜索,HTML parser,XML parser(解析器),有很多c#,java,c++的源代碼可以利用,沒有強大的解析器,跟本無法讀懂文件。

2.System.Xml空間的詳細運用,除了簡單的XMLWriter,還必須學會XMLDocument,XmlNode,能夠動態操控XML。還有Xpath技術,操作XMl很有效率。

3.適當還會運用到正則表達式,來處理字符串匹配問題,尤其是節點的操作,即使是再好的字符串查找算法,有時也不如正則表達式,因此system.Text 中的Regex類要掌握好。

4.會控制WinForm中的WebBrower控件

當然,即使妳不打算自己做,或已找到了源代碼,要想讀懂,也必須要以上的知識。

至於工具,網上有,源碼還哪找,有java的,但下載不下來。

這是著名的W3C(Html,xml等技術的創始組織)的轉換工具,裏面也有壹些介紹,相信會有用的。

/downloads.asp

/csharp/html2xml.asp

還有壹些軟件,stylus的產品不錯!

/html_to_xml_importer.html

  • 上一篇:夏季、淡季,外賣小哥不容易
  • 下一篇:炒股指標制作?
  • copyright 2024編程學習大全網