爬虫 - 随笔分类 - 高圈圈

爬虫（BeautifulSoup4）——安装

摘要：环境：python3 win10 安装这个心好累啊！网上找了很多办法都安装不成功，后来换了几个安装包，最后4.4.1版本的包终于能用了！ https://blog.csdn.net/www520507/article/details/78073497 上面这个教程讲的很详细，我就是用这个教程安装了几阅读全文

posted @ 2018-06-01 16:36 高圈圈阅读(237) 评论(0) 推荐(1)

爬虫（Xpath）——爬tieba.baidu.com

摘要：工具：python3 核心知识点： 1）lxml包不能用pip下载，因为里面有其他语言编写的文件 2）urlopen返回的请求是html文件，要使用 content = etree.HTML(html)来将其转换为xml 3）使用content.xpath()返回一个匹配成功的列表集合 4）构造新的阅读全文

posted @ 2018-06-01 11:28 高圈圈阅读(1300) 评论(0) 推荐(0)

爬虫（正则）——爬neihan8

摘要：工具：python3 步骤： 1）定义spider类，将具体功能封装成方法 2）观察html页面，写好正确的正则表达式来找到符合规则的文字 3）写一个方法测试一下，保证每写好一个都是对的 4）加入提示语，完善每个方法 5）得到的页面发现乱码，需要将response进行decode，尝试utf-8提示阅读全文

posted @ 2018-05-30 20:36 高圈圈阅读(1025) 评论(0) 推荐(1)

爬虫（cookie）——renren模拟登陆

摘要：工具：python3 步骤： 1）使用cookiejar.CookieJar()构建一个CookieJar（）构建一个对象，用来保存cookie的值 2）使用HTTPCookieProcessor（）构建一个处理器对象，用来处理cookie 3）使用build_opener构建自定义opener 4 阅读全文

posted @ 2018-05-30 15:43 高圈圈阅读(214) 评论(0) 推荐(1)

爬虫（ProxyHandler）——代理

摘要：工具：python3 步骤： 1）使用ProxyHandler（）构建httpproxy_handler对象 2）使用build_opener(httpproxy_handler)构建opener 3）使用Request()构造请求 4）使用install_opener()构造一个全局opener 阅读全文

posted @ 2018-05-29 21:24 高圈圈阅读(734) 评论(0) 推荐(1)

爬虫（GET）——handler处理器和自定义opener

摘要：工具：python3 解释：urlopen（）不支持代理、cookie等其他的http/https高级功能，所以需要handler处理器创建特定功能的处理器对象，urllib.request.bulid_opener()使用处理器对象创建自定义的opener对象，最后使用自定义的opener对象调用阅读全文

posted @ 2018-05-29 20:16 高圈圈阅读(195) 评论(0) 推荐(1)

爬虫（AJEX）——豆瓣动态页面

摘要：工具：python3 解释：Ajax 是一种用于创建快速动态网页的技术，在无需重新加载整个网页的情况下，能够更新部分网页的技术。目标：爬取使用Ajex结束的豆瓣网页执行上述代码后，将得到的内容在json.cn中转码，出现如下错误：说明文件格式不对，没能正确转码，尝试将返回值response进行阅读全文

posted @ 2018-05-28 21:17 高圈圈阅读(699) 评论(0) 推荐(1)

爬虫（POST）——有道翻译（有bug）

摘要：工具：python3 过程：抓包得到有道翻页面的url；复制post请求头，得到headers中的信息；复制post请求的body，得到formdata中的信息。构造post请求，返回响应返回error：50 修改url，去掉_o后仍然不能得到正确的信息，，，原来，有道有反爬虫机制！哈哈哈哈，刚阅读全文

posted @ 2018-05-28 20:50 高圈圈阅读(349) 评论(0) 推荐(1)

爬虫（GET）——爬取多页的html

摘要：工具：python3 目标：将编写的代码封装，不同函数完成不同功能，爬取任意页数的html 新学语法：with open as 除了有更优雅的语法，with还可以很好的处理上下文环境产生的异常。阅读全文

posted @ 2018-05-25 17:12 高圈圈阅读(2364) 评论(0) 推荐(1)

爬虫（GET）——传递要查询的关键字

摘要：工具：python3 目标：传递关键字，爬取任意关键字的页面阅读全文

posted @ 2018-05-25 15:51 高圈圈阅读(1521) 评论(0) 推荐(1)

爬虫（GET）——add_header()和get_header()

摘要：工具：python3 阅读全文

posted @ 2018-05-24 21:12 高圈圈阅读(2116) 评论(0) 推荐(1)

爬虫（GET）——爬baidu.com主页

摘要：工具：python3 目标：www.baidu.com 工作流程： 1）反爬虫第一步：抓包工具fiddler抓取页面请求信息，得到User-Agent的值，用于重构urllib.request.Request()。 2）爬取数据 3）存储数据阅读全文

posted @ 2018-05-24 20:38 高圈圈阅读(475) 评论(0) 推荐(1)

高圈圈

Your courage will reward you .

随笔分类 - 爬虫

公告