摘要: 2017-07-25 22:49:21 阅读全文
posted @ 2017-07-25 22:50 hyserendipity 阅读(352) 评论(0) 推荐(0)
摘要: 2017-07-25 21:08:16 一、网络爬虫的规模 二、网络爬虫的限制 • 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问• 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守 三、Robots 协议 阅读全文
posted @ 2017-07-25 21:25 hyserendipity 阅读(534) 评论(0) 推荐(0)
摘要: 2017-07-25 10:38:30 response = requests.get(url, params=None, **kwargs) url : 拟获取页面的url链接∙ params : url中的额外参数,字典或字节流格式,可选 params参数是字典或字节序列,作为参数增加到url中 阅读全文
posted @ 2017-07-25 17:06 hyserendipity 阅读(301) 评论(0) 推荐(0)
摘要: 2017-07-24 22:58:16 xml 和 json 都是数据交互的格式。 想象一下,python中的字典数据要传给java使用,但是众所周知的是java中只有hashmap数据结构,并没有字典,所以在传输时需要对python中的数据进行序列化操作,就是讲字典数据转成xml或者json格式, 阅读全文
posted @ 2017-07-24 23:27 hyserendipity 阅读(316) 评论(0) 推荐(0)
摘要: 2017-07-24 22:39:14 Python3 中的beautifulsoup引入的包是bs4 阅读全文
posted @ 2017-07-24 22:40 hyserendipity 阅读(264) 评论(0) 推荐(0)
摘要: 2017-07-24 20:43:49 Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求。Http协议主要的操作流程是request-response即请求响应。我们可以利用python中的socket库完成连接的建立,然后使用GET方法获取服务器端的数据。 一、 阅读全文
posted @ 2017-07-24 21:18 hyserendipity 阅读(324) 评论(0) 推荐(0)
摘要: 2017-07-21 15:22:05 Matplotlib库是一个优秀的python的数据可视化的第三方类库,其中的pyplot支持了类似matlab的图像输出操作。matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式。 一、matplotlib.pyplot子库 x 阅读全文
posted @ 2017-07-24 15:13 hyserendipity 阅读(361) 评论(0) 推荐(0)
摘要: 2017-07-24 13:16:17 正则表达式是用来更简洁的匹配查找字符串的一种语言。使用正则表达式可以更方便的处理字符串。在Python中使用re库可以进行字符串的正则匹配。正则表达式本身其实就是一个字符串,不过这个字符串里有一些语法,通过这些语法的约束,可以像解迷一样将字符串中自己需要的部分 阅读全文
posted @ 2017-07-24 14:47 hyserendipity 阅读(187) 评论(0) 推荐(0)
摘要: 2017-07-20 15:18:25 k近邻(k-Nearest Neighbour, 简称kNN)学习是一种常用的监督学习方法,其工作机制非常简单,对某个给定的测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个‘邻居’的信息进行预测。一般来说,在分类中采用‘投票法’, 阅读全文
posted @ 2017-07-20 19:02 hyserendipity 阅读(430) 评论(0) 推荐(0)
摘要: 2017-07-03 23:26:08 1、.replace(self, old, new, count=-1) replace()函数将旧字符串替换为新字符串,最后一个参数count为可选项,表示替换最多count次(小于count)。 注意这种替换返回替换后的字符串,源字符串是不改变的。 2、. 阅读全文
posted @ 2017-07-18 18:42 hyserendipity 阅读(462) 评论(0) 推荐(0)