最近研究了一下关于网页信息的批量分析与抓取,感觉还是有一些体会的。
    我们知道,web程序的设计可分为静态网页和动态网页,静态网页基本就是纯的html,动态网页在服务器端执行,返回结果到浏览器端,从某种意义上本地浏览器内的网页都是静态的。对于开放的,无需验证的网页,只要配合网站地址和正则表达式简单地使用MSHTML,就可以远程抓取网页连接,内容等各种信息。似乎看网上一些文章,搜索引擎的基本功能就可以这样实现。最近还看到Zpoo漫游网的一个例子(http://163.zpoo.com/),他们可以抓取163相册的图片地址(本来有一款可以批量下载163相册的工具,但163改版后就不能用了)。不过以上这一切都要在一个前提下,就是网页不需验证,不用提供用户名和密码。.net中的net库中有一些类向webclient、webrequest之类,提供了http的访问服务,不过功能有限,想要在连接后面这样写:http://xxx.xxx.xxx/xxx.asp?username=tcpch&password=123456再去连接某个地址获取信息是行不通的,不知道哪位高手有什么解决方案,可能我没有用对相应的类库以致饶了弯路。
    不过既然浏览器端可以访问,我们就有办法。于是就想到了webbrowser控件。大致想法是用webbrowser先连网页(webbrowser里可以解决登陆验证问题),抽取出连接后,继续请求同一网站的其他页面,验证由webbrowser做,这样就可以批量抽取了,至于在线抓数据还是下载后再抓,这之中又有不同,今天先写到这里,下次继续。

posted on 2006-04-22 14:37  tcpch  阅读(10108)  评论(9编辑  收藏  举报