随笔分类 -  python3 Webspider_notebook

摘要:Ajax原理 代码有不明白的 欢迎来微信公众号“他她自由行”找我,回复任何话都可以 我都会回你哒~   在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有。这是因为requests获取的都是原始 HT 阅读全文
posted @ 2019-02-10 09:57 xubin97 阅读(1177) 评论(0) 推荐(0)
摘要:一、文件存储 1. TXT文本存储 代码有不明白的 欢迎来微信公众号“他她自由行”找我,回复任何话都可以 我都会回你哒~ 例:知乎发现页面,获得数据存成TXT文本 注意: 1. 在用pyquery解析时,一定要找准属性进行匹配; 2. 打开文件open()函数第二个参数设置为a,其他值: 3.每次o 阅读全文
posted @ 2019-02-07 10:24 xubin97 阅读(1600) 评论(0) 推荐(0)
摘要:一、Xpath 解析 代码有不明白的 欢迎来微信公众号“他她自由行”找我,回复任何话都可以 我都会回你哒~   xpath:是一种在XMl、html文档中查找信息的语言,利用了lxml库对HTML解析获取数据。 Xpath常用规则: 1.初始化html etree.parse()是初始化h 阅读全文
posted @ 2019-02-06 13:48 xubin97 阅读(1577) 评论(0) 推荐(0)
摘要:正则表达式 解释:是处理字符串的强大工具,有自己语法结构,能实现字符串的检索、替换、匹配验证等功能。 对爬虫来说,用它来从html中获得数据就简单了。 re库 1.match() (更适合检测某个字符串是否符合某个正则表达式的规则,后面会讨论到) content='zifuchuan' result 阅读全文
posted @ 2019-01-29 16:41 xubin97 阅读(317) 评论(0) 推荐(0)