随笔分类 -  数据挖掘

数据分析方法
摘要:参考: http://www.woshipm.com/pd/597257.html 阅读全文
posted @ 2018-06-29 14:32 caiqingfei 阅读(1386) 评论(0) 推荐(1)
摘要:1,shell脚本如何获取时间 2,shell脚本如何传入参数 3,shell脚本并发执行 阅读全文
posted @ 2018-05-18 15:43 caiqingfei 阅读(885) 评论(0) 推荐(0)
摘要:待续! 阅读全文
posted @ 2018-03-08 16:00 caiqingfei 阅读(118) 评论(0) 推荐(0)
摘要:下面简单列举几种常用的推荐系统评测指标: 1、准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中 阅读全文
posted @ 2018-03-07 09:18 caiqingfei 阅读(2420) 评论(0) 推荐(0)
摘要:转自:http://blog.csdn.net/stevenkwong/article/details/52528616 阅读全文
posted @ 2018-01-15 14:43 caiqingfei 阅读(409) 评论(0) 推荐(0)
摘要:参考:https://www.cnblogs.com/zhangduo/p/4440314.html 导入CSV、TXT文件 read.table函数:read.table函数以数据框的格式读入数据,所以适合读取混合模式的数据,但是要求每列的数据数据类型相同。 read.table读取数据非常方便, 阅读全文
posted @ 2017-12-26 14:36 caiqingfei 阅读(18541) 评论(0) 推荐(0)
摘要:删除pandas DataFrame的某一/几列: 方法一:直接del DF['column-name'] 方法二:采用drop方法,有下面三种等价的表达式: 1. DF= DF.drop('column_name', 1); 2. DF.drop('column_name',axis=1, inp 阅读全文
posted @ 2017-12-26 10:40 caiqingfei 阅读(71248) 评论(0) 推荐(0)
摘要:参考:http://www.php.cn/wenda/91257.html https://www.cnblogs.com/king-lps/p/7846414.html http://blog.csdn.net/kancy110/article/details/75043202 阅读全文
posted @ 2017-12-25 17:24 caiqingfei 阅读(2025) 评论(0) 推荐(0)
摘要:可以参考:http://blog.sina.com.cn/s/blog_80572f5d0101anxw.html 阅读全文
posted @ 2017-12-25 17:22 caiqingfei 阅读(5103) 评论(0) 推荐(0)
摘要:待续! 阅读全文
posted @ 2017-12-25 17:21 caiqingfei 阅读(334) 评论(0) 推荐(0)
摘要:相信有很多人收这个问题的困扰,如果你想一次性在pandas.DataFrame里添加几列,或者在指定的位置添加一列,都会很苦恼找不到简便的方法;可以用到的函数有df.reindex, pd.concat 我们来看一个例子: df 是一个DataFrame, 如果你只想在df的后面添加一列,可以用下面 阅读全文
posted @ 2017-12-25 10:18 caiqingfei 阅读(170548) 评论(0) 推荐(2)
摘要:Python中集成R :参考博客http://blog.csdn.net/weidelight/article/details/44946785 阅读全文
posted @ 2017-12-19 22:15 caiqingfei 阅读(848) 评论(0) 推荐(0)
摘要:转载:http://blog.163.com/qianshch%40126/blog/static/48972522201092254141315/ 聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层 阅读全文
posted @ 2017-12-18 11:12 caiqingfei 阅读(7734) 评论(0) 推荐(0)
摘要:分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 一、分类算法概述 解决分类问题的方法很多 ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向 阅读全文
posted @ 2017-12-18 11:06 caiqingfei 阅读(13479) 评论(0) 推荐(1)
摘要:数据规范化处理是数据挖掘的一项基本操作。现实中,数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。特别是基于距离的挖掘方法,在建模前一定要对数据进行规范化处理,如SVM,KNN, 阅读全文
posted @ 2017-12-17 21:41 caiqingfei 阅读(7827) 评论(0) 推荐(0)
摘要:下周写! 阅读全文
posted @ 2017-12-17 13:50 caiqingfei 阅读(264) 评论(0) 推荐(0)
摘要:学习中! 阅读全文
posted @ 2017-12-17 13:49 caiqingfei 阅读(423) 评论(0) 推荐(0)
摘要:学习中! 阅读全文
posted @ 2017-12-17 13:48 caiqingfei 阅读(404) 评论(0) 推荐(0)
摘要:学习中! 阅读全文
posted @ 2017-12-17 13:47 caiqingfei 阅读(418) 评论(0) 推荐(0)
摘要:现实世界中的数据总是“脏的”,主要体现在数据不准确,不完整,不一致,含有噪声和异常等,而数据清洗的目的就是尽可能的使现实中的数据变得准确,完整,一致,真实,可信。 下面逐一讨论如何对存在这些问题数据进行清理。 先从简单的开始: 一 ,数据不完整,即数据中存在缺失值,对于缺失值的处理主要有以下几种方法 阅读全文
posted @ 2017-12-17 13:46 caiqingfei 阅读(1632) 评论(0) 推荐(0)