format Blog

给我个权限,我format你的硬盘.

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

        今天已经是有做HTML解析器的想法好几天了,一开始是一个朋友要我帮忙处理下从网页上的表格中获取信息,然后分项保存到数据库中,实现数据本地化。一开始就打算好好做一个,以后也可以通用,经过一个多星期的资料收集和试验,现在分析器的雏形已经出来了。
        在一开始的时候打算直接用.NET中字符处理的方法来做,但过于复杂和麻烦,而且效率不高;然后有想到把HTML当做XML用XML相关的类来解析,但HTML的语法比较松散;还试过SgmlReader,这个东西的解析也不够满意。最后觉得用正则表达式来做(我学习了5天,已经深入到自动机的理论),选用的原因:
           一、 效率高;
            二、 容错性好。应为HTML没有XML那样严格的语法规范,HTML要松散些。
        但正则表达式有个缺点,如果要匹配最近的<td></td>正则表达式要相当复杂,而且我也没有研究出来。我的解决办法是象Table用Match匹配出文字,然后用Match的index获得匹配的位置,再用SubString方法取得值字符串。效果还不错哦。

        现在遇到的问题:如果Table中包含Table那么对TR的分解将出来错误。

posted on 2004-12-07 18:53  format  阅读(4760)  评论(13编辑  收藏  举报