摘要: 从开始学习编程到现在,已经将近1年多的时间,我的大学生涯也到研究生第二学年中期了。这5年多的学习经历也算是坎坎坷坷,一直在摸索,走了很多弯路,尝试了一些新事物,总算在研究生的时候真正明确了自己的目标。在这里对我这一阶段的探索做一个总结。迷茫,本科前期相信很多朋友都有这样的经历,大学填志愿在懵懂的状态下就做了选择,然而现实总是那么骨感,经历过才披露出各种问题。读完半学期才发现我的专业是一个完全以科研... 阅读全文
posted @ 2016-10-19 11:17 woaielf 阅读(434) 评论(1) 推荐(2) 编辑
摘要: 数据库风格的DataFrame合并(pandas.merge方法):通过一个或多个键将行链接起来的如果没有指定要用哪个列进行连接,merge就会将重叠列的列名当做键。最好显式指定一下(on=; left_on, right_on;)默认情况下,merge做的是"inner"连接;结果中的键是交集。其 阅读全文
posted @ 2016-08-25 10:16 woaielf 阅读(838) 评论(0) 推荐(0) 编辑
摘要: 2016-6-7:第一次学习。2016-8-24:第二次学习,添加思维导图。pandas 两个主要数据结构:Series 和 DataFrame。(建议引入本地)Series:类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成通过Series 的 values 和 index 属性获取其数组表示形式和索引对象可以为数据指定索引,通过索引的方式选取S... 阅读全文
posted @ 2016-06-07 14:17 woaielf 阅读(12785) 评论(0) 推荐(3) 编辑
摘要: 2016-6-3:第一次学习。2016-8-23:第二次学习,添加思维导图。数据分析应用关注的重点:用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。常用的数组算法,如排序、唯一化、集合运算等。高效的描述统计和数据聚合/摘要运算。用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。将条件逻辑表述为数组表达式(而不是带有if-elif-else分支的循环)。数据的分组运算(聚合、... 阅读全文
posted @ 2016-06-03 15:50 woaielf 阅读(3356) 评论(0) 推荐(1) 编辑
摘要: 2016-6-2:第一次学习。2016-8-10:第二次学习,添加思维导图。思维导图概览:“Python数据分析”学习目标:与外界进行交互:读写各种各样的文件格式和数据库。准备:对数据进行清理、修整、整合、规范化、重塑、切片切块、变形等处理以便进行分析。转换:对数据集做一些数学和统计运算以产生新的数据集。比如说,根据分组变量对一个大表进行聚合。建模和计算:将数据跟统计模型、机器学习算法或其他计算工... 阅读全文
posted @ 2016-06-02 15:20 woaielf 阅读(905) 评论(0) 推荐(0) 编辑
摘要: 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型:数值型数据。 k均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心(centroid),即簇中所有点的中心来描述。 工作流程:首先,随机确定k个初始点作为质心。然后将数据集中的每个点分配 阅读全文
posted @ 2016-05-27 11:14 woaielf 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 后续再次学习,现在理解有些模糊。优点:可以对复杂和非线性的数据建模缺点:结果不易理解适用数据类型:数值型(转换成二值型)和标称型数据树回归的一般方法收集数据:采用任意方法收集数据。准备数据:需要数值型的数据,标称型数据应该映射成二值型数据。分析数据:绘出数据的二维可视化显示结果,以字典方式生成树。训练算法:大部分时间都花费在叶节点树模型的构建上。测试算法:使用测试数据上的R2值来分析模型的效果。使... 阅读全文
posted @ 2016-05-24 08:21 woaielf 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型(必须离散化)和标称型。决策树创建分支的伪代码函数createBranch():检测数据集中的每个子项是否属于同一分类: If so return 类标签; Else 寻找划分数据集的最好特征 划分数据集 创建... 阅读全文
posted @ 2016-05-20 10:25 woaielf 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 使用集成方法时会有多种形式: 可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。 可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。 AdaBoost 优点:泛化错误率低,易编码,可以 阅读全文
posted @ 2016-05-13 15:16 woaielf 阅读(346) 评论(0) 推荐(0) 编辑
摘要: P.S. SVM比较复杂,代码没有研究清楚,进一步学习其他知识后再来补充。以下仅罗列了最核心的知识,来自《机器学习实战》的学习摘要。优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。线性可分数据:画出一条直线将两组数据点分开。超平面(将数据集分隔开来的直线,为N-1维):分类的决策边界。如果数... 阅读全文
posted @ 2016-05-11 09:20 woaielf 阅读(287) 评论(0) 推荐(0) 编辑