摘要:作者:波布兰链接:https://www.zhihu.com/question/28218420/answer/39904627来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Python的优势: Python相对于Matlab最大的优势:免费。但既然你已经能用上Ma
阅读全文
摘要:原文出处: codingwu 的博客 简单解释 MapReduce 算法 一个有趣的例子 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃? MapReduce方法则是: 拆分 MapReduce合并了两种经典函数: 映射(Mapping)对集合里的每个目标应用同一个操作。
阅读全文
摘要:原文出处: 林炳文(@林炳文Evankaka) 一、准备工作与代码实例 1、PIL、pytesser、tesseract (1)安装PIL:下载地址:http://www.pythonware.com/products/pil/(CSDN下载) 下载后是一个exe,直接双击安装,它会自动安装到C:P
阅读全文
摘要:转载自:博客 对于某些网站登录的时候,往往需要输入验证码才能实现登录。如果要爬虫这类网站,往往总会比这个验证码导致无法爬取数据。以下介绍一种比较折中的方法,也是比较可行的方法: 实现思想: 1、通过截图获取验证码图片,为什么要截图,有的人会说,可以通过验证码图片的链接爬取下来,再用OCR识别就可以了
阅读全文
摘要:1.元素选择器 直接选择文档元素div 2.类选择器 元素的class属性,类名就是wrap,.wrap就是选择所有类中有这个属性的元素。 div.wrap 3.ID选择器 #wrap就是选择id=wrap的元素 id一个文档只能出现一次 id选择器不能使用单词列表 与类选择器一样,都区分大小写 4
阅读全文
摘要:python中的容器: 1.list 2.tuple:只读数组 3.set:没有重复元素的数组 4.dict:字典(类似于哈希表) 5.数组切片 切片是复制 6.字符串与数组之间的关系 字符串不能直接去修改,修改字符串是要通过数组进行修改。 字符串也可和数组一样,进行分片
阅读全文
摘要:之前写过一个链家网北京二手房的数据抓取,然后本来今天想着要把所有的东西弄完,但是临时有事出去了一趟,耽搁了一下,然后现在是想着把北京的二手房的信息都进行抓取,并且存储在mongodb中, 首先是通过'https://bj.lianjia.com'的url将按照区域划分和地铁路线图进行划分的所有的ur
阅读全文
摘要:之前在公司一直做的是C语言的开发,然后做的都是业务方面的东西,做的是sdk,因为最近在找工作,然后今天面试的时候被问到C语言和Python的区别,自己只是简单的说了C是静态语言,在变量在使用前进行声明,而Python是动态语言,在使用的时候可以直接使用,不需要声明,C里面没有对象,而Python里面
阅读全文
摘要:对于新浪微博评论的抓取,首篇做的时候有些考虑不周,然后现在改正了一些地方,因为有人问,抓取评论的时候“爬前50页的热评,或者最新评论里的前100页“,这样的数据看了看,好像每条微博的评论都只能抓取到前100页,当page=101时,xhr数据就成空,然后没有内容,所以现在是抓取每条微博最近的100页
阅读全文
摘要:推荐一个网站:tushare 使用方法如下: 我是使用pycharm直接安装的 抓取了浦发和光大的股票数据,并通过csv进行保存,和通过plt进行图片打印
阅读全文
摘要:简单操作 Python-层次聚类-Hierarchical clustering Hierarchical与DataFrame之间的转换 Merge,join,Concatenate 进行拼接concat 合并两个DataFrame,并且只是交集 Series和DataFrame一起Concaten
阅读全文
摘要:转载自:廖雪峰的官方网站 协程,又称微线程,纤程。英文名Coroutine。 协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。 子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。
阅读全文
摘要:原文链接: http://www.jianshu.com/p/9c6ae64a1bd7 image GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富,涉及面非常广。awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web框架、
阅读全文
摘要:机器学习算法比较 Posted on 2016-02-26 20:24 | In ML | | views 本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我
阅读全文
摘要:1.Series Series是一个一维数组 pandas会默认从0开始作为Series的index 也可以自己指定index Series还可以用dictionary来构造一个Series 2.DataFrame DataFrame是一个二维的数组 DataFrame可以由一个dictionary
阅读全文
摘要:如果"/"处在XPath表达式开头则表示文档根元素,(表达式中间作为分隔符用以分割每一个步进表达式)如:/messages/message/subject是一种绝对路径表示法,它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages/message[1]】,则路径表
阅读全文