随笔档案「2005年2月6日」：使用XPath解析HTML获取网页内容 ... - Microtoby

2005年2月6日

使用XPath解析HTML获取网页内容

摘要：有的时候，我们开发的应用需要抓取网页的内容借为己用，如QQ网站的天气信息和新闻等，和Google等搜索爬虫的机制不同之处在于抓取目标的页面对开发人员而言是已知的。我们有理由避免过多的使用正则表达式的繁冗分析过程，如果能够在获取目标网页的HTML之后通过DOM来解析HTML将是一件非常愉快的事情。这里会遇到两个问题，DOM操作只能在客户端通过Javascript或VBScript等脚本语言进行，加上... 阅读全文

posted @ 2005-02-06 01:05 Microtoby 阅读(6599) 评论(14) 推荐(2)

使用XPath解析HTML获取网页内容

导航

公告