随笔档案「2021年1月25日」：Python 多线程+队列+入库：根据关键字筛选爬取网页 ... - Juno3550

2021年1月25日

摘要：实现思路多线程爬取网页信息，从一个页面为起点，爬取其包含的所有链接，并根据关键字筛选，将符合的网页入库。访问首页（种子页），获取源码 html；使用正则或者其他方式获取所有的绝对地址链接，存到一个 list 里面；遍历 list，加入到队列中；多线程从队列中取数据，一次取一个绝对地址链接，阅读全文

posted @ 2021-01-25 19:05 Juno3550 阅读(703) 评论(0) 推荐(0)

Python 多线程+队列：爬取某网站所有图片

摘要：实现思路 download_image(url, image_dir, image_no)：将图片下载页的主图下载到本地。 get_image_url(url)：拼接图片下载的 url（绝对路径）。由于网站中的图片 src 都是相对路径，因此需要在此函数中拼接图片的绝对路径。 get_page_ur 阅读全文

posted @ 2021-01-25 15:07 Juno3550 阅读(331) 评论(0) 推荐(0)

Juno3550

公告