随笔分类 - 数据挖掘/数据处理
摘要:concat 与其说是连接,更准确的说是拼接。就是把两个表直接合在一起。于是有一个突出的问题,是横向拼接还是纵向拼接,所以concat 函数的关键参数是axis 。 函数的具体参数是: objs 是需要拼接的对象集合,一般为列表或者字典 axis=0 是按照行拼接,拼接之后行数增加,列数也根据joi
阅读全文
摘要:1.encode与decode:unicode经过encode -> utf-8,反过来为decode。 爬虫读取网页内容和pandas读取csv时,会把读取到的文字内容转成unicode,当我们需要把这些文字内容写入到新的文件时,需要设置该文件的编码(该编码应该与网页或原来的编码相同,以便带来编码
阅读全文
摘要:1.找出某个字段包含某字符串的行: 2.字段值长度大于零的行:
阅读全文
摘要:写代码写习惯了,在做数据预处理时也总是习惯性地用python、pandas来做处理,但其实有时候根本不需要写代码,用excel也能达到目的,甚至比写代码快很多,写代码要半天,excel只要几秒钟。下面是几个最近发现的实用技能和场景: 1.去掉某一个列的重复项:例如,删除address列中的重复项。
阅读全文
摘要:1.使用pandas.read_csv(filePath)方法来读取csv文件时,可能会出现这种错误:ParserError:Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.这句话的意思是,在csv文件的第407行数
阅读全文
摘要:https://www.dataquest.io/blog/large_files/pandas-cheat-sheet.pdf
阅读全文
摘要:读取csv: http://blog.csdn.net/lixiang0522/article/details/7755059 读取Excel: http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html
阅读全文
摘要:绘制散点+连线图: http://www.cnblogs.com/aaronhoo/p/5150596.html http://zhidao.baidu.com/link?url=Q1b7NG8eEz-e-pg5PonP1M0A70sctCvfMgyvtjbu7jdGzRQX5TTpg5vqKEvR
阅读全文
摘要:代码: 效果图: 由此看出,要绘制直方图,只要准备一个包含频率(柱状体高度)的字典,字典的key即为柱状体的下标,字典的value即为柱状体高度,各个柱状体的横坐标由字典的大小(多少个键值对)确定。 matplotlib的另外一种绘制直方图函数是hist(),暂时不会用,待学习。 参考:http:/
阅读全文
摘要:pip可以很方便的安装python的各种工具库,如pandas,matplotlib,scikit等,最大优点是它会自动解决库之间的依赖性,把所有需要的库都安装好,比起手工一个一个安装方便多了。 1. 如何安装pip? win7系统,假如Python的安装目录为D:\Program Files (x
阅读全文
摘要:对于txt文本类数据,优先采用shell脚本,实在不行才用Python,Java,MySQL 1) Shell命令行或脚本的处理速度极快,比Java快得多。 2) Shell代码量少,几个命令就能完成Python几十行、Java上百行代码的工作,例如 $ cut -f 2 data.txt | so
阅读全文
摘要:对于千万行级别的数据,处理起来非常麻烦,例如有一个文件a.txt,大小超过2GB,共2000多万行,每行是一个新闻的相关信息,其中有一列为新闻标题,字符串型,新闻标题较长,现需要对新闻标题进行聚类,将类似标题的新闻归为一类,并将其中代表性的标题作为这一组新闻的标题。 例如"海量数据处理经验交流会今天
阅读全文
摘要:Python的字符串处理(包括整数等转换)、日期处理(加减、格式化为字符串、时间差)、文件读写、迭代器、类静态、成员方法构造器、多态、Type、异常处理、正则表达式Java同样。轨迹数据的分析:分时段(找出高峰期)、高峰期即各个时段哪里出租车最多,有多少?载客时一般去哪里,载客率、何时客人最多,何时...
阅读全文
摘要:唠叨几句: 近期在做数据分析,需要对数据做可视化处理,也就是画图,一般是用Matlib来做,但Matlib安装文件太大,不太想直接用它,据说其代码运行效率也很低,在网上看到可以先用Java做数据处理,然后调用Matlib来画图,另外,还可以使用Matplotlib,它是用Python写的类似Matl
阅读全文

浙公网安备 33010602011771号