摘要:
一、简单爬虫框架 简单爬虫框架由四个部分组成:URL管理器、网页下载器、网页解析器、调度器,还有应用这一部分,应用主要是NLP配合相关业务。 它的基本逻辑是这样的:给定一个要访问的URL,获取这个html及内容(也可以获取head和cookie等其它信息),获取html中的某一类链接,如a标签的hr 阅读全文
posted @ 2018-04-15 14:53
一只火眼金睛的男猴
阅读(10448)
评论(0)
推荐(0)
浙公网安备 33010602011771号