随笔分类 - 爬虫
摘要:环境:python3 win10 安装这个心好累啊!网上找了很多办法都安装不成功,后来换了几个安装包,最后4.4.1版本的包终于能用了! https://blog.csdn.net/www520507/article/details/78073497 上面这个教程讲的很详细,我就是用这个教程安装了几
阅读全文
摘要:工具:python3 核心知识点: 1)lxml包不能用pip下载,因为里面有其他语言编写的文件 2)urlopen返回的请求是html文件,要使用 content = etree.HTML(html)来将其转换为xml 3)使用content.xpath()返回一个匹配成功的列表集合 4)构造新的
阅读全文
摘要:工具:python3 步骤: 1)定义spider类,将具体功能封装成方法 2)观察html页面,写好正确的正则表达式来找到符合规则的文字 3)写一个方法测试一下,保证每写好一个都是对的 4)加入提示语,完善每个方法 5)得到的页面发现乱码,需要将response进行decode,尝试utf-8提示
阅读全文
摘要:工具:python3 步骤: 1)使用cookiejar.CookieJar()构建一个CookieJar()构建一个对象,用来保存cookie的值 2)使用HTTPCookieProcessor()构建一个处理器对象,用来处理cookie 3)使用build_opener构建自定义opener 4
阅读全文
摘要:工具:python3 步骤: 1)使用ProxyHandler()构建httpproxy_handler对象 2)使用build_opener(httpproxy_handler)构建opener 3)使用Request()构造请求 4)使用install_opener()构造一个全局opener
阅读全文
摘要:工具:python3 解释:urlopen()不支持代理、cookie等其他的http/https高级功能,所以需要handler处理器创建特定功能的处理器对象,urllib.request.bulid_opener()使用处理器对象创建自定义的opener对象,最后使用自定义的opener对象调用
阅读全文
摘要:工具:python3 解释:Ajax 是一种用于创建快速动态网页的技术,在无需重新加载整个网页的情况下,能够更新部分网页的技术。 目标:爬取使用Ajex结束的豆瓣网页 执行上述代码后,将得到的内容在json.cn中转码,出现如下错误: 说明文件格式不对,没能正确转码,尝试将返回值response进行
阅读全文
摘要:工具:python3 过程:抓包得到有道翻页面的url;复制post请求头,得到headers中的信息;复制post请求的body,得到formdata中的信息。构造post请求,返回响应 返回error:50 修改url,去掉_o后仍然不能得到正确的信息,,,原来,有道有反爬虫机制! 哈哈哈哈,刚
阅读全文
摘要:工具:python3 目标:将编写的代码封装,不同函数完成不同功能,爬取任意页数的html 新学语法:with open as 除了有更优雅的语法,with还可以很好的处理上下文环境产生的异常。
阅读全文
摘要:工具:python3 目标:传递关键字,爬取任意关键字的页面
阅读全文
摘要:工具:python3
阅读全文
摘要:工具:python3 目标:www.baidu.com 工作流程: 1)反爬虫第一步:抓包工具fiddler抓取页面请求信息,得到User-Agent的值,用于重构urllib.request.Request()。 2)爬取数据 3)存储数据
阅读全文

浙公网安备 33010602011771号