随笔分类 - 编程基础 / Python 爬虫
摘要:实现思路 多线程爬取网页信息,从一个页面为起点,爬取其包含的所有链接,并根据关键字筛选,将符合的网页入库。 访问首页(种子页),获取源码 html; 使用正则或者其他方式获取所有的绝对地址链接,存到一个 list 里面; 遍历 list,加入到队列中; 多线程从队列中取数据,一次取一个绝对地址链接,
阅读全文
摘要:实现思路 download_image(url, image_dir, image_no):将图片下载页的主图下载到本地。 get_image_url(url):拼接图片下载的 url(绝对路径)。由于网站中的图片 src 都是相对路径,因此需要在此函数中拼接图片的绝对路径。 get_page_ur
阅读全文
摘要:1. Scrapy 简介 2. Scrapy 项目开发介绍 3. Scrapy 项目代码示例 3.1 setting.py:爬虫基本配置 3.2 items.py:定义您想抓取的数据 3.3 spider目录下的sohu.py:编写提取数据的Spider 3.4 pipelines.py:将爬取后的
阅读全文
摘要:许多网站针对爬虫的访问都设置了一定的障碍,这里介绍防反爬虫机制的 3 大技巧。 1)设定程序休止时间 2)设定代理 3)设定 User-Agent 1)设定程序休止时间 1 import time 2 3 time.sleep(n) 2)设定代理 代理服务器的存在,可以应对网站禁止某个 IP 访问的
阅读全文
摘要:1. Xpath 1.1 Xpath 简介 1.2 Xpath 使用案例 2. BeautifulSoup 2.1 BeautifulSoup 简介 2.2 BeautifulSoup 使用案例 1)爬取“NATIONAL WEATHER”的天气数据 2)爬取豆瓣电影 TOP 250 的电影名与链接
阅读全文
摘要:1. 爬虫简介 2. requests 基础用法 3. urlretrieve() 1. 爬虫简介 爬虫的定义 网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫有什么用 市场分析:电商分析、商圈分析、一二级市场分析等 市场监控:电商、新闻、房
阅读全文

浙公网安备 33010602011771号