Python 爬虫 - 随笔分类 - Juno3550

Python 多线程+队列+入库：根据关键字筛选爬取网页

摘要：实现思路多线程爬取网页信息，从一个页面为起点，爬取其包含的所有链接，并根据关键字筛选，将符合的网页入库。访问首页（种子页），获取源码 html；使用正则或者其他方式获取所有的绝对地址链接，存到一个 list 里面；遍历 list，加入到队列中；多线程从队列中取数据，一次取一个绝对地址链接，阅读全文

posted @ 2021-01-25 19:05 Juno3550 阅读(711) 评论(0) 推荐(0)

Python 多线程+队列：爬取某网站所有图片

摘要：实现思路 download_image(url, image_dir, image_no)：将图片下载页的主图下载到本地。 get_image_url(url)：拼接图片下载的 url（绝对路径）。由于网站中的图片 src 都是相对路径，因此需要在此函数中拼接图片的绝对路径。 get_page_ur 阅读全文

posted @ 2021-01-25 15:07 Juno3550 阅读(343) 评论(0) 推荐(0)

Scrapy 爬虫项目框架

摘要：1. Scrapy 简介 2. Scrapy 项目开发介绍 3. Scrapy 项目代码示例 3.1 setting.py：爬虫基本配置 3.2 items.py：定义您想抓取的数据 3.3 spider目录下的sohu.py：编写提取数据的Spider 3.4 pipelines.py：将爬取后的阅读全文

posted @ 2020-12-19 00:53 Juno3550 阅读(342) 评论(0) 推荐(0)

防反爬虫机制

摘要：许多网站针对爬虫的访问都设置了一定的障碍，这里介绍防反爬虫机制的 3 大技巧。 1）设定程序休止时间 2）设定代理 3）设定 User-Agent 1）设定程序休止时间 1 import time 2 3 time.sleep(n) 2）设定代理代理服务器的存在，可以应对网站禁止某个 IP 访问的阅读全文

posted @ 2020-12-06 23:13 Juno3550 阅读(532) 评论(0) 推荐(0)

网页解析：Xpath 与 BeautifulSoup

摘要：1. Xpath 1.1 Xpath 简介 1.2 Xpath 使用案例 2. BeautifulSoup 2.1 BeautifulSoup 简介 2.2 BeautifulSoup 使用案例 1）爬取“NATIONAL WEATHER”的天气数据 2）爬取豆瓣电影 TOP 250 的电影名与链接阅读全文

posted @ 2020-12-06 23:03 Juno3550 阅读(2745) 评论(0) 推荐(0)

爬虫简介、requests 基础用法、urlretrieve()

摘要：1. 爬虫简介 2. requests 基础用法 3. urlretrieve() 1. 爬虫简介爬虫的定义网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫有什么用市场分析：电商分析、商圈分析、一二级市场分析等市场监控：电商、新闻、房阅读全文

posted @ 2020-12-06 20:24 Juno3550 阅读(1061) 评论(0) 推荐(0)

Juno3550

随笔分类 - 编程基础 / Python 爬虫

公告