随笔分类 -  爬虫

摘要:starts-with 顾名思义,匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text() 匹配的是显示文本信息,此处也可以用来做定位用 eg //input[starts-with(@name,'name1')] 查找name属性中开始位置包含'name1'关键字 阅读全文
posted @ 2017-09-26 15:04 推杯问盏 阅读(189) 评论(0) 推荐(0)
摘要:质区别 text()是一个node test,而string()是一个函数,data()是一个函数且可以保留数据类型。此外,还有点号(.)表示当前节点。 使用要点 XML例子: <book><author>Tom John</author></book> 特殊用例 XML例子: text() 经常在 阅读全文
posted @ 2017-09-26 11:31 推杯问盏 阅读(671) 评论(0) 推荐(0)
摘要:认识selenium 在爬取百度文库的过程中,我们需要使用到一个工具selenium(浏览器自动测试框架),selenium是一个用于web应用程序测试的工具,它可以测试直接运行在浏览器中,就像我们平时用浏览器上网一样,支持IE(7,8,9,10,11),firefox,safari,chrome, 阅读全文
posted @ 2017-09-23 19:59 推杯问盏 阅读(373) 评论(0) 推荐(0)
摘要:知乎内容需要登陆后才能查看,与之前案例不同,这里要向浏览器提交登录信息。 首先爬取知乎登录页面 此时出现 500 Server Error,解决方法为通过 headers={...} 更改用户代理为浏览器 在知乎登录页面打开Chrome浏览器F12,这里打钩之后新跳转的页面的信息就不会覆盖之前接受到 阅读全文
posted @ 2017-09-17 19:50 推杯问盏 阅读(355) 评论(0) 推荐(0)
摘要:Beautiful Soup库基础知识 Beautiful Soup库是解析xml和html的功能库。html、xml大都是一对一对的标签构成,所以Beautiful Soup库是解析、遍历、维护“标签树”的功能库,只要提供的是标签类型Beautiful Soup库都可以进行很好的解析。 Beaut 阅读全文
posted @ 2017-09-16 19:03 推杯问盏 阅读(304) 评论(0) 推荐(0)
摘要:requests库的7个常用方法 get方法: r = equests.get(url,params=None,**kwargs),r 是服务器返回的一个包含服务器所有资源的Response对象 url :要获取的API/网页的URL链接 params:URL中的额外参数,可以是字典、字节流格式,可 阅读全文
posted @ 2017-09-16 17:09 推杯问盏 阅读(321) 评论(0) 推荐(0)
摘要:import requests import re import time #获取html页面 def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = "utf-8" #... 阅读全文
posted @ 2017-09-16 16:17 推杯问盏 阅读(239) 评论(0) 推荐(0)
摘要:程序结构设计: 1.获取网页内容 getHTMLText() 2.获取网络内容信息并存储到合适的数据结构中 fillUnivList() 3.利用数据结构展示并输出结果 printUnivList() 实现代码 阅读全文
posted @ 2017-09-16 16:09 推杯问盏 阅读(315) 评论(0) 推荐(0)