摘要: 概述 网络爬虫主要工作就是跟据指定的url地址 去发送请求,获得响应, 然后解析响应 , 一方面从响应中查找出想要查找的数据,另一方面从响应中解析出新的URL路径。 爬取目标 之前在验证身份证是否符合规则,其中有一项是验证前六位数是否是实际存在的区划代码,就从国家统计局:http://www.sta 阅读全文
posted @ 2019-04-17 20:26 fish's dream 阅读(1472) 评论(2) 推荐(0) 编辑
摘要: 爬虫原理 浏览器获取网页内容的步骤:浏览器提交请求、下载网页代码、解析成页面,爬虫要做的就是: 简单例子:利用Urllib库爬取w3c网站教程 1、urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应:例如,对百度的一个w3c发送 阅读全文
posted @ 2019-03-22 09:19 fish's dream 阅读(755) 评论(0) 推荐(2) 编辑