摘要:        
基础爬虫框架主要包括五大模块,分别为爬虫调度器、url管理器、HTML下载器、HTML解析器、数据存储器。 1:爬虫调度器主要负责统筹其他四个模块的协调工作 2: URL管理器负责管理URL连接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口 3: HTML下载器用于从UR    阅读全文
        
            posted @ 2018-01-24 18:30
paulversion
阅读(791)
评论(0)
推荐(0)
        
            
        
        
摘要:        
#coding:utf-8from email.header import Headerfrom email.mime.text import MIMETextfrom email.utils import parseaddr,formataddrimport smtplib def _fromat    阅读全文
        
            posted @ 2018-01-24 15:44
paulversion
阅读(240)
评论(0)
推荐(0)
        
                    
                
        
浙公网安备 33010602011771号