2018年1月17日
摘要:
1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 节点关系 (1)父(Parent) 每个元素
阅读全文
posted @ 2018-01-17 12:50
小学森也要学编程
阅读(452)
推荐(0)
摘要:
1.Beautiful Soup简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所
阅读全文
posted @ 2018-01-17 11:55
小学森也要学编程
阅读(448)
推荐(0)
2017年12月14日
摘要:
1.安装 利用pip来安装reques库,进入pip的下载位置,打开cmd,默认地址为 可以看到文件中有pip.exe,直接在上面输入cmd回车,进入命令行界面,输入下载指令即可下载 2.基本请求 requests库提供了http所有的基本请求方式。 1)基本GET请求 一个简单的例子 这里requ
阅读全文
posted @ 2017-12-14 20:24
小学森也要学编程
阅读(381)
推荐(0)
2017年12月13日
摘要:
1)socket.error: [Errno 10054] ython socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。因为对一个网站大量的使用urlopen操作,所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后,request.
阅读全文
posted @ 2017-12-13 17:35
小学森也要学编程
阅读(672)
推荐(0)
摘要:
本篇目标 1.输入关键字能够根据关键字爬取百度图片 2.能够将图片保存到本地文件夹 1.URL的格式 进入百度图片搜索apple,这时显示的是瀑布流版本,我们选择传统翻页版本进行爬取。可以看到网址为: 点击下一页发现网址变为pn=20,这里仅pn发生了改变 2.抓取图片 打开开发者选项,点击图片,出
阅读全文
posted @ 2017-12-13 17:22
小学森也要学编程
阅读(810)
推荐(0)
2017年12月11日
摘要:
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 先观察百度贴吧url格式,以中南财经政法大学迎新帖为例,URL我们划分基础部分是 http://tieba.baidu.com/p/5174106966,参数部分是
阅读全文
posted @ 2017-12-11 20:48
小学森也要学编程
阅读(408)
推荐(0)
2017年12月6日
摘要:
这里利用正则表达式进行匹配,糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子。 本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布页数,发布人,段子内容,点
阅读全文
posted @ 2017-12-06 20:48
小学森也要学编程
阅读(324)
推荐(0)
2017年12月5日
摘要:
1.了解正则表达式 正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。3.如果表达式中有量词或边界,这个过程会稍微有一些不同。 2.正则表达式的语法规则 3.正则表达式相关注解 (1)数量词的贪婪模式与非贪婪模
阅读全文
posted @ 2017-12-05 19:35
小学森也要学编程
阅读(720)
推荐(0)
2017年11月29日
摘要:
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。 1.Ope
阅读全文
posted @ 2017-11-29 19:25
小学森也要学编程
阅读(415)
推荐(0)
2017年11月28日
摘要:
1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。 我们利用了 urlopen方法访问了一个不存在的网址,运行结果如下: 它说明了错误代号是11004,
阅读全文
posted @ 2017-11-28 20:29
小学森也要学编程
阅读(581)
推荐(0)