2015 年 5月 22 日随笔档案 - chen2013

2015年5月22日

摘要：网络爬虫第一个要面临的问题，就是如何抓取网页，抓取其实很容易，没你想的那么复杂，一个开源HtmlUnit包，几行代码就OK啦！通常在一个页面中会包含别的Url，在别的Url当中又会包含更多的Url。如果我们要对与该站点相关的Url全部都抓取过来。就相当于我们要对跟这个站有关的Url进行搜索。常用的搜... 阅读全文

posted @ 2015-05-22 16:20 chen2013 阅读(1230) 评论(0) 推荐(0)

694297232

冰冻三尺非一日之寒

公告