随笔分类 -  数据挖掘/数据处理

摘要:concat 与其说是连接,更准确的说是拼接。就是把两个表直接合在一起。于是有一个突出的问题,是横向拼接还是纵向拼接,所以concat 函数的关键参数是axis 。 函数的具体参数是: objs 是需要拼接的对象集合,一般为列表或者字典 axis=0 是按照行拼接,拼接之后行数增加,列数也根据joi 阅读全文
posted @ 2018-07-17 15:05 morein2008 阅读(37702) 评论(0) 推荐(0)
摘要:1.encode与decode:unicode经过encode -> utf-8,反过来为decode。 爬虫读取网页内容和pandas读取csv时,会把读取到的文字内容转成unicode,当我们需要把这些文字内容写入到新的文件时,需要设置该文件的编码(该编码应该与网页或原来的编码相同,以便带来编码 阅读全文
posted @ 2018-07-12 19:34 morein2008 阅读(496) 评论(0) 推荐(0)
摘要:1.找出某个字段包含某字符串的行: 2.字段值长度大于零的行: 阅读全文
posted @ 2018-07-12 19:30 morein2008 阅读(172) 评论(0) 推荐(0)
摘要:写代码写习惯了,在做数据预处理时也总是习惯性地用python、pandas来做处理,但其实有时候根本不需要写代码,用excel也能达到目的,甚至比写代码快很多,写代码要半天,excel只要几秒钟。下面是几个最近发现的实用技能和场景: 1.去掉某一个列的重复项:例如,删除address列中的重复项。 阅读全文
posted @ 2018-07-12 10:28 morein2008 阅读(176) 评论(0) 推荐(0)
摘要:1.使用pandas.read_csv(filePath)方法来读取csv文件时,可能会出现这种错误:ParserError:Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.这句话的意思是,在csv文件的第407行数 阅读全文
posted @ 2018-07-10 17:09 morein2008 阅读(4539) 评论(0) 推荐(0)
摘要:https://www.dataquest.io/blog/large_files/pandas-cheat-sheet.pdf 阅读全文
posted @ 2018-07-06 11:38 morein2008 阅读(180) 评论(0) 推荐(0)
摘要:使用R语言预测销量 阅读全文
posted @ 2017-12-01 20:18 morein2008 阅读(605) 评论(0) 推荐(0)
摘要:读取csv: http://blog.csdn.net/lixiang0522/article/details/7755059 读取Excel: http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html 阅读全文
posted @ 2016-12-08 17:06 morein2008 阅读(173) 评论(0) 推荐(0)
摘要:绘制散点+连线图: http://www.cnblogs.com/aaronhoo/p/5150596.html http://zhidao.baidu.com/link?url=Q1b7NG8eEz-e-pg5PonP1M0A70sctCvfMgyvtjbu7jdGzRQX5TTpg5vqKEvR 阅读全文
posted @ 2016-09-20 21:31 morein2008 阅读(3548) 评论(0) 推荐(0)
摘要:代码: 效果图: 由此看出,要绘制直方图,只要准备一个包含频率(柱状体高度)的字典,字典的key即为柱状体的下标,字典的value即为柱状体高度,各个柱状体的横坐标由字典的大小(多少个键值对)确定。 matplotlib的另外一种绘制直方图函数是hist(),暂时不会用,待学习。 参考:http:/ 阅读全文
posted @ 2016-09-20 21:13 morein2008 阅读(6526) 评论(0) 推荐(0)
摘要:pip可以很方便的安装python的各种工具库,如pandas,matplotlib,scikit等,最大优点是它会自动解决库之间的依赖性,把所有需要的库都安装好,比起手工一个一个安装方便多了。 1. 如何安装pip? win7系统,假如Python的安装目录为D:\Program Files (x 阅读全文
posted @ 2016-09-19 17:03 morein2008 阅读(1015) 评论(0) 推荐(0)
摘要:对于txt文本类数据,优先采用shell脚本,实在不行才用Python,Java,MySQL 1) Shell命令行或脚本的处理速度极快,比Java快得多。 2) Shell代码量少,几个命令就能完成Python几十行、Java上百行代码的工作,例如 $ cut -f 2 data.txt | so 阅读全文
posted @ 2016-03-15 18:33 morein2008 阅读(670) 评论(0) 推荐(0)
摘要:对于千万行级别的数据,处理起来非常麻烦,例如有一个文件a.txt,大小超过2GB,共2000多万行,每行是一个新闻的相关信息,其中有一列为新闻标题,字符串型,新闻标题较长,现需要对新闻标题进行聚类,将类似标题的新闻归为一类,并将其中代表性的标题作为这一组新闻的标题。 例如"海量数据处理经验交流会今天 阅读全文
posted @ 2016-03-09 13:07 morein2008 阅读(614) 评论(0) 推荐(0)
摘要:Python的字符串处理(包括整数等转换)、日期处理(加减、格式化为字符串、时间差)、文件读写、迭代器、类静态、成员方法构造器、多态、Type、异常处理、正则表达式Java同样。轨迹数据的分析:分时段(找出高峰期)、高峰期即各个时段哪里出租车最多,有多少?载客时一般去哪里,载客率、何时客人最多,何时... 阅读全文
posted @ 2016-01-22 21:03 morein2008 阅读(167) 评论(0) 推荐(0)
摘要:唠叨几句: 近期在做数据分析,需要对数据做可视化处理,也就是画图,一般是用Matlib来做,但Matlib安装文件太大,不太想直接用它,据说其代码运行效率也很低,在网上看到可以先用Java做数据处理,然后调用Matlib来画图,另外,还可以使用Matplotlib,它是用Python写的类似Matl 阅读全文
posted @ 2016-01-22 12:04 morein2008 阅读(11156) 评论(0) 推荐(0)