随笔分类 - R
数据分析工具R语言
摘要:k-means法与k-medoids法都是基于距离判别的聚类算法。本文将使用iris数据集,在R语言中实现k-means算法与k-medoids算法。 k-means聚类 k-means聚类 首先删去iris中的Species属性,留下剩余4列数值型变量。再利用kmeans()将数据归为3个簇 从聚
阅读全文
摘要:本文将介绍如何使用party包,rpart包及randomForest包来建立预测模型。 首先,我们将使用party包来建立决策树,并用决策树用于分类。其次,利用randomForest包来训练随机森林模型。 最后学习使用rpart包来建立决策树。 所使用的数据集为R中自带的iris数据集 使用pa
阅读全文
摘要:当 回 归 模 型 包 含 一 个 因 变 量 和 一 个 自 变 量 时 , 我 们 称 为 简 单 线 性 回 归 。 当 只 有 一 个 预 测 变 量 , 但 同 时 包 含 变 量 的 幂 ( 比 如 , X 、X^2 、X^3 ) 时 , 我 们 称 为 多 项 式 回 归 。 当 有
阅读全文
摘要:数据为kaggle社区发布的数据分析从业者问卷调查分析报告,其中涵盖了关于该行业不同维度的问题及调查结果。本文的目的为提取有用的数据,进行描述性展示。帮助新从业的人员更全方位地了解这个行业。 参考学习视频:http://www.tianshansoft.com/ 数据集:https://pan.ba
阅读全文
摘要:本文探讨的是kaggle中的一个案例-员工离职分析,从数据集中分析员工的离职原因,并发现其中的问题。数据主要包括影响员工离职的各种因素(工资、绩效、工作满意度、参加项目数、工作时长、是否升职、等)以及员工是否已经离职的对应记录。 数据来源:Human Resources Analytics | Ka
阅读全文
摘要:分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析。 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 案例分析 加载包 1 libr
阅读全文