爬虫 - 随笔分类 - 推杯问盏

[xpath] 定位中starts-with、contains和text()的用法

摘要：starts-with 顾名思义，匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text（）匹配的是显示文本信息，此处也可以用来做定位用 eg //input[starts-with(@name,'name1')] 查找name属性中开始位置包含'name1'关键字阅读全文

posted @ 2017-09-26 15:04 推杯问盏阅读(189) 评论(0) 推荐(0)

[xpath] text()和string()区别

摘要：质区别 text()是一个node test，而string()是一个函数，data()是一个函数且可以保留数据类型。此外，还有点号（.）表示当前节点。使用要点 XML例子： <book><author>Tom John</author></book> 特殊用例 XML例子： text() 经常在阅读全文

posted @ 2017-09-26 11:31 推杯问盏阅读(671) 评论(0) 推荐(0)

[爬虫] selenium介绍

摘要：认识selenium 在爬取百度文库的过程中，我们需要使用到一个工具selenium（浏览器自动测试框架），selenium是一个用于web应用程序测试的工具，它可以测试直接运行在浏览器中，就像我们平时用浏览器上网一样，支持IE(7，8，9，10，11),firefox,safari,chrome, 阅读全文

posted @ 2017-09-23 19:59 推杯问盏阅读(373) 评论(0) 推荐(0)

[爬虫] 一起来爬知乎娘

摘要：知乎内容需要登陆后才能查看，与之前案例不同，这里要向浏览器提交登录信息。首先爬取知乎登录页面此时出现 500 Server Error，解决方法为通过 headers={...} 更改用户代理为浏览器在知乎登录页面打开Chrome浏览器F12，这里打钩之后新跳转的页面的信息就不会覆盖之前接受到阅读全文

posted @ 2017-09-17 19:50 推杯问盏阅读(355) 评论(0) 推荐(0)

[爬虫] BeautifulSoup库

摘要：Beautiful Soup库基础知识 Beautiful Soup库是解析xml和html的功能库。html、xml大都是一对一对的标签构成，所以Beautiful Soup库是解析、遍历、维护“标签树”的功能库，只要提供的是标签类型Beautiful Soup库都可以进行很好的解析。 Beaut 阅读全文

posted @ 2017-09-16 19:03 推杯问盏阅读(304) 评论(0) 推荐(0)

[爬虫] requests库

摘要：requests库的7个常用方法 get方法： r = equests.get(url,params=None,**kwargs)，r 是服务器返回的一个包含服务器所有资源的Response对象 url ：要获取的API/网页的URL链接 params：URL中的额外参数，可以是字典、字节流格式，可阅读全文

posted @ 2017-09-16 17:09 推杯问盏阅读(321) 评论(0) 推荐(0)

[定向爬虫] 网络爬虫实例2-淘宝定向爬虫

摘要：import requests import re import time #获取html页面 def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = "utf-8" #... 阅读全文

posted @ 2017-09-16 16:17 推杯问盏阅读(239) 评论(0) 推荐(0)

[定向爬虫] 网络爬虫实例1

摘要：程序结构设计： 1.获取网页内容 getHTMLText() 2.获取网络内容信息并存储到合适的数据结构中 fillUnivList() 3.利用数据结构展示并输出结果 printUnivList() 实现代码阅读全文

posted @ 2017-09-16 16:09 推杯问盏阅读(315) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告