Python小爬虫的一般思路

小爬虫一般步骤:
    (1)下载数据
        第三方包
        urllib:系统自带,连接网络,urlopne,Request
        如果下载的网址是https,需要导入ssl
        
        准备数据
            网址:
            headres(请求头):
        封装请求
            request = Request(网址,请求头)
        打开连接
            conn = urlopen(request)
        判断是否连接成功
            if conn.code == 200:
                data = conn.read()
        文件下载
            from urllib.request import urlretrieve
            urlretrieve("文件地址","存储地址")
    
    (2)处理数据
        解压(可选项)
        编码:网页编码格式,meta charset="编码格式"
            data.decode(encoding=编码格式)
        转换数据为HTML格式
            lxml:etree
            html = etree.HTML(data)
        获取需要的数据
            #   //:前是什么东西我们都不考虑
            正确取出信息的方式为"//标签名[@属性名='属性值']/标签名[@属性名='属性值']"
            #   获取属性:@属性名
            #   如果同一级出现多个标签 例:<div id="pic-meinv" class="pic-meinv" style="margin-bottom: 0;">
            #   正确进入下一级的方式为"//div[@id='pic-meinv']/a/img"
            获取内容:text()
            内容列表 = html.xpath("")
        循环遍历内容列表
            内容
            字符串方法进行处理

 

posted @ 2020-01-08 01:33  Lauriee  阅读(3)  评论(0)    收藏  举报  来源