摘要: 实现思路 多线程爬取网页信息,从一个页面为起点,爬取其包含的所有链接,并根据关键字筛选,将符合的网页入库。 访问首页(种子页),获取源码 html; 使用正则或者其他方式获取所有的绝对地址链接,存到一个 list 里面; 遍历 list,加入到队列中; 多线程从队列中取数据,一次取一个绝对地址链接, 阅读全文
posted @ 2021-01-25 19:05 Juno3550 阅读(694) 评论(0) 推荐(0)
摘要: 实现思路 download_image(url, image_dir, image_no):将图片下载页的主图下载到本地。 get_image_url(url):拼接图片下载的 url(绝对路径)。由于网站中的图片 src 都是相对路径,因此需要在此函数中拼接图片的绝对路径。 get_page_ur 阅读全文
posted @ 2021-01-25 15:07 Juno3550 阅读(325) 评论(0) 推荐(0)