python3 Webspider_notebook - 随笔分类 - xubin97

用Ajax爬取今日头条图片集

摘要：Ajax原理代码有不明白的欢迎来微信公众号“他她自由行”找我，回复任何话都可以我都会回你哒~ 在用requests抓取页面时，得到的结果可能和浏览器中看到的不一样：在浏览器中可以正常显示的页面数据，但用requests得到的结果并没有。这是因为requests获取的都是原始 HT 阅读全文

posted @ 2019-02-10 09:57 xubin97 阅读(1177) 评论(0) 推荐(0)

（完整）爬取数据存储之TXT、JSON、CSV存储

摘要：一、文件存储 1. TXT文本存储代码有不明白的欢迎来微信公众号“他她自由行”找我，回复任何话都可以我都会回你哒~ 例：知乎发现页面，获得数据存成TXT文本注意： 1. 在用pyquery解析时，一定要找准属性进行匹配； 2. 打开文件open()函数第二个参数设置为a，其他值： 3.每次o 阅读全文

posted @ 2019-02-07 10:24 xubin97 阅读(1600) 评论(0) 推荐(0)

（最全）Xpath、Beautiful Soup、Pyquery三种解析库解析html 功能概括

摘要：一、Xpath 解析代码有不明白的欢迎来微信公众号“他她自由行”找我，回复任何话都可以我都会回你哒~ xpath：是一种在XMl、html文档中查找信息的语言，利用了lxml库对HTML解析获取数据。 Xpath常用规则： 1.初始化html etree.parse()是初始化h 阅读全文

posted @ 2019-02-06 13:48 xubin97 阅读(1577) 评论(0) 推荐(0)

正则表达式功能概括

摘要：正则表达式解释：是处理字符串的强大工具，有自己语法结构，能实现字符串的检索、替换、匹配验证等功能。对爬虫来说，用它来从html中获得数据就简单了。 re库 1.match() (更适合检测某个字符串是否符合某个正则表达式的规则，后面会讨论到) content='zifuchuan' result 阅读全文

posted @ 2019-01-29 16:41 xubin97 阅读(317) 评论(0) 推荐(0)

xubin97

为一些越来越常见以及廉价的数据，提供稀缺且附带额外价值的服务！

随笔分类 - python3 Webspider_notebook