孔雀东南飞

2019年3月15日

摘要：一、前言有时候我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样，在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档，而浏览器中的页面则是经过 JavaScript 处理数阅读全文

posted @ 2019-03-15 08:17 孔雀东南飞阅读(430) 评论(0) 推荐(0)

第7章 Ajax数据爬取

摘要： Ajax 简介 Ajax 分析方法 Ajax 结果提取阅读全文

posted @ 2019-03-15 07:53 孔雀东南飞阅读(154) 评论(0) 推荐(0)

使用 CSV 文件存储

摘要：将爬取到的数据以 CSV 文件形式存储：阅读全文

posted @ 2019-03-15 07:47 孔雀东南飞阅读(429) 评论(0) 推荐(0)

使用 Json 文件存储

摘要：将爬取到的数据以 Json 文件形式存储：结果如下：阅读全文

posted @ 2019-03-15 07:21 孔雀东南飞阅读(1094) 评论(0) 推荐(0)

使用 TXT 文本存储

摘要：将爬取的数据以 TXT 文本形式存储：阅读全文

posted @ 2019-03-15 07:10 孔雀东南飞阅读(195) 评论(0) 推荐(0)

第6章数据存储

摘要：使用 TXT 文本存储使用 Json 文件存储使用 CSV 文件存储使用 MySQL 存储使用 MongoDB 存储使用 Redis 存储阅读全文

posted @ 2019-03-15 06:35 孔雀东南飞阅读(175) 评论(0) 推荐(0)

使用 PyQuery

摘要： PyQuery 用法： (1) 前面我们爬取一个网页，都是使用正则表达式来提取想要的信息，但是这种方式比较复杂，一旦有一个地方写错，就匹配不出来了，因此我们可以使用 PyQuery(2) PyQuery 是一个网页解析库，如果你觉得正则写起来太麻烦，如果你觉得 BeautifulSoup 语法太难记阅读全文

posted @ 2019-03-15 06:33 孔雀东南飞阅读(143) 评论(0) 推荐(0)

2019年3月14日

使用 Beautiful Soup

摘要： Beautiful Soup 用法： (1) 前面我们爬取一个网页，都是使用正则表达式来提取想要的信息，但是这种方式比较复杂，一旦有一个地方写错，就匹配不出来了，因此我们可以使用 Beautiful Soup 来进行提取(2) Beautiful Soup 就是 Python 的一个 HTML 或阅读全文

posted @ 2019-03-14 18:30 孔雀东南飞阅读(205) 评论(0) 推荐(0)

使用 requests 进行身份认证

摘要：如下图，有些网站需要使用用户名密码才可以登录，我们可以使用 requests 的 auth 参数来实现阅读全文

posted @ 2019-03-14 16:38 孔雀东南飞阅读(346) 评论(0) 推荐(0)

使用 requests 配置代理服务

摘要： (1) 如果我们一直用同一个IP去请求同一个网站上的网页，久了之后可能会被该网站服务器屏蔽，因此我们可以使用代理IP来发起请求，代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时，服务器端显示的是代理IP的地址，即使被屏蔽了，我们可以换一个代理IP继续爬取，代理IP获取页面：https 阅读全文

posted @ 2019-03-14 16:37 孔雀东南飞阅读(865) 评论(0) 推荐(0)

公告