摘要:
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的 简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 阅读全文
posted @ 2018-09-11 20:48
Shadow_Y
阅读(197)
评论(0)
推荐(0)
摘要:
XPath简介 XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。W3C关于XPath的英文详细文档请 阅读全文
posted @ 2018-09-11 20:44
Shadow_Y
阅读(335)
评论(0)
推荐(0)
摘要:
递归 递归 在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。 扩展:函数名可以当做参数传递 函数名():执行函数 函数名:代指函数 示例: #斐波那契def f(a1,a2):if a1 > 100:returnprint(a1)a3 = a1 + a2f(a2, 阅读全文
posted @ 2018-09-11 18:58
Shadow_Y
阅读(123)
评论(0)
推荐(0)
摘要:
一、概述 socket,套接字。 套接字是一种源IP地址和目的IP地址以及源端口号和目的端口号的组合.网络化的应用程序在开始任何通讯之前都必须要创建套接字.就像电话的插口一样,没有它就没办法通讯. 它是网络通信过程中端点的抽象表示,包含进行网络通信必须的五种信息:连接使用的协议,本地主机的IP地址, 阅读全文
posted @ 2018-09-11 18:57
Shadow_Y
阅读(206)
评论(0)
推荐(0)
摘要:
大家好,我是四毛,下面是我的个人公众号,欢迎关注。有问题的可以私信我,看到就会回复。 更新 2018年08月03日14:39:32 其实可以利用scrapy的扩展展示更多的数据,立个flag,后面更新上来 好,开始今天的文章。 今天主要是来说一下怎么可视化来监控你的爬虫的状态。 相信大家在跑爬虫的过 阅读全文
posted @ 2018-09-11 18:55
Shadow_Y
阅读(759)
评论(0)
推荐(0)
摘要:
什么是(监督式)机器学习?简单来说,它的定义如下: 机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。 下面我们来了解一下机器学习的基本术语。 标签 在简单线性回归中,标签是我们要预测的事物,即 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。 阅读全文
posted @ 2018-09-11 18:54
Shadow_Y
阅读(884)
评论(0)
推荐(0)
摘要:
本节我们来用 TensorFlow 来实现一个深度学习模型,用来实现验证码识别的过程,这里我们识别的验证码是图形验证码,首先我们会用标注好的数据来训练一个模型,然后再用模型来实现这个验证码的识别。 验证码 首先我们来看下验证码是怎样的,这里我们使用 Python 的 captcha 库来生成即可,这 阅读全文
posted @ 2018-09-11 18:52
Shadow_Y
阅读(870)
评论(0)
推荐(0)
摘要:
大家好,我是四毛,最近开通了个人公众号“用Python来编程”,欢迎大家“关注”,这样您就可以收到优质的文章了。 今天跟大家分享的主题是利用python库twilio来免费发送短信。 先放一张成品图 代码放在了本文最后的地址中,欢迎有需要的自取,有任何也可以在评论或者后台直接私聊我。 正文 眼尖的小 阅读全文
posted @ 2018-09-11 18:52
Shadow_Y
阅读(3655)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2018-09-11 18:51
Shadow_Y
阅读(1)
评论(0)
推荐(0)
摘要:
原理 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。 中文分词与英文分词有很大的不同,对英文而言,一个单词 阅读全文
posted @ 2018-09-11 18:50
Shadow_Y
阅读(10133)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2018-09-11 16:43
Shadow_Y
阅读(2)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2018-09-11 16:31
Shadow_Y
阅读(0)
评论(0)
推荐(0)
摘要:
用Splash做页面抓取时,如果爬取的量非常大,任务非常多,用一个Splash服务来处理的话,未免压力太大了,此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理,可以减小单个Splash服务的压力。 1. 配置Splash服务 要搭建Splash负载 阅读全文
posted @ 2018-09-11 16:14
Shadow_Y
阅读(349)
评论(0)
推荐(0)
摘要:
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍 利用Splash,我们可以实现如下功能: 异步方式处理多个网页渲染过程; 获取渲染后的页面的源代 阅读全文
posted @ 2018-09-11 16:09
Shadow_Y
阅读(5348)
评论(0)
推荐(1)
摘要:
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之处吧。 1. 准备工作 本节以Chrom 阅读全文
posted @ 2018-09-11 16:08
Shadow_Y
阅读(1129)
评论(0)
推荐(0)
摘要:
在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax,我们仍然可以借助requests或urllib来实现数据爬取。 不过JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网(详见http://news.yout 阅读全文
posted @ 2018-09-11 16:06
Shadow_Y
阅读(254)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2018-09-11 16:06
Shadow_Y
阅读(1)
评论(0)
推荐(0)
摘要:
这里仍然以微博为例,接下来用Python来模拟这些Ajax请求,把我发过的微博爬取下来。 1. 分析请求 打开Ajax的XHR过滤器,然后一直滑动页面以加载新的微博内容。可以看到,会不断有Ajax请求发出。 选定其中一个请求,分析它的参数信息。点击该请求,进入详情页面,如图6-11所示。 图6-11 阅读全文
posted @ 2018-09-11 16:05
Shadow_Y
阅读(487)
评论(0)
推荐(0)
摘要:
这里还以前面的微博为例,我们知道拖动刷新的内容由Ajax加载,而且页面的URL没有变化,那么应该到哪里去查看这些Ajax请求呢? 1. 查看请求 这里还需要借助浏览器的开发者工具,下面以Chrome浏览器为例来介绍。 首先,用Chrome浏览器打开微博的链接https://m.weibo.cn/u/ 阅读全文
posted @ 2018-09-11 16:05
Shadow_Y
阅读(588)
评论(0)
推荐(0)
摘要:
有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源 阅读全文
posted @ 2018-09-11 16:04
Shadow_Y
阅读(577)
评论(0)
推荐(0)