随笔分类 - python3 Webspider_notebook
摘要:Ajax原理 代码有不明白的 欢迎来微信公众号“他她自由行”找我,回复任何话都可以 我都会回你哒~ 在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有。这是因为requests获取的都是原始 HT
阅读全文
摘要:一、文件存储 1. TXT文本存储 代码有不明白的 欢迎来微信公众号“他她自由行”找我,回复任何话都可以 我都会回你哒~ 例:知乎发现页面,获得数据存成TXT文本 注意: 1. 在用pyquery解析时,一定要找准属性进行匹配; 2. 打开文件open()函数第二个参数设置为a,其他值: 3.每次o
阅读全文
摘要:一、Xpath 解析 代码有不明白的 欢迎来微信公众号“他她自由行”找我,回复任何话都可以 我都会回你哒~ xpath:是一种在XMl、html文档中查找信息的语言,利用了lxml库对HTML解析获取数据。 Xpath常用规则: 1.初始化html etree.parse()是初始化h
阅读全文
摘要:正则表达式 解释:是处理字符串的强大工具,有自己语法结构,能实现字符串的检索、替换、匹配验证等功能。 对爬虫来说,用它来从html中获得数据就简单了。 re库 1.match() (更适合检测某个字符串是否符合某个正则表达式的规则,后面会讨论到) content='zifuchuan' result
阅读全文

浙公网安备 33010602011771号