爬虫 - 随笔分类 - 王先生是胖子

摘要：流程：打开的web_wechat，就有出现二维码，在network中，name中login？loginicon中，status的状态是pending，pending的意思是前端发送了一个请求，但是还没有被返回。阅读全文

posted @ 2017-08-29 17:05 王先生是胖子阅读(189) 评论(0) 推荐(0)

摘要：对HTML的解析：在解析复杂的HTML的页面时，需要避免一些问题，好让爬虫工作变得得心应手。 • 寻找“打印此页”的链接，或者看看网站有没有HTML样式更友好的移动版(把自己的请求头设置成处于移动设备的状态，然后接收网站移动版)。 • 寻找隐藏在JavaScript文件里的信息。要实现这一点，可阅读全文

posted @ 2017-08-21 16:50 王先生是胖子阅读(424) 评论(0) 推荐(0)

爬虫-----模块

摘要：爬虫所需要的模块： requests： requetes是使用Apache2 licensed的许可证，基于Python开发的http库。在Python内置模块的基础上进行的高度封装，从而使得Python进行网络请求时，变的好用，使用requests可以轻易得完成浏览器的任何操作。 1. get 阅读全文

posted @ 2017-08-21 10:10 王先生是胖子阅读(283) 评论(0) 推荐(0)

爬虫-----数据采集的基本原理

摘要：常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网络收割(Web harvesting)或其他类似的版本。器人(bots)。常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网络收割(Web harvesting 阅读全文

posted @ 2017-08-15 10:28 王先生是胖子阅读(4343) 评论(0) 推荐(0)

爬虫----异常处理

摘要：爬虫的异常处理： • 网页在服务器上不存在(或者获取页面的时候出现错误) • 服务器不存在第一种异常发生时，程序会返回 HTTP 错误。HTTP 错误可能是“404 Page Not Found”“500 Internal Server Error”等。所有类似情形，urlopen函数都会抛出“H 阅读全文

posted @ 2017-08-14 09:53 王先生是胖子阅读(280) 评论(0) 推荐(0)

爬虫----登录及点赞

摘要：基本操作： url指定内容获取到： -发送http请求， -基于正则表达式获取内容 import requests from bs4 import BeautifulSoup response = requests.get("url") response.text obj = beautifulso 阅读全文

posted @ 2017-08-14 09:50 王先生是胖子阅读(383) 评论(0) 推荐(0)

爬虫-----自定义框架

摘要：异步IO：阅读全文

posted @ 2017-08-12 15:57 王先生是胖子阅读(102) 评论(0) 推荐(0)

王先生是胖子

随笔分类 - 爬虫

公告