摘要:        
实现思路 多线程爬取网页信息,从一个页面为起点,爬取其包含的所有链接,并根据关键字筛选,将符合的网页入库。 访问首页(种子页),获取源码 html; 使用正则或者其他方式获取所有的绝对地址链接,存到一个 list 里面; 遍历 list,加入到队列中; 多线程从队列中取数据,一次取一个绝对地址链接,    阅读全文
posted @ 2021-01-25 19:05
Juno3550
阅读(694)
评论(0)
推荐(0)
        
            
        
        
摘要:        
实现思路 download_image(url, image_dir, image_no):将图片下载页的主图下载到本地。 get_image_url(url):拼接图片下载的 url(绝对路径)。由于网站中的图片 src 都是相对路径,因此需要在此函数中拼接图片的绝对路径。 get_page_ur    阅读全文
posted @ 2021-01-25 15:07
Juno3550
阅读(325)
评论(0)
推荐(0)
        
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号