摘要: 使用一个小型的合成数据集来帮助使用ML。 数据集解释: 数据集包括了有两个值(bad、good)的分类标签,以及【其实应该说是哑变量】分类变量(颜色)、两个数值变量。 虽然数据是合成的,但让我们假设这个数据集代表了公司的客户健康状况。“颜色”列表示客户服务代表做出的某种分类健康评级。“lab”列表示 阅读全文
posted @ 2020-01-09 16:29 Tony学长 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 从官网可以知道的是 MLib是针对RDD数据集的,而ML是针对Dataframe格式的。 ML是对MLib的高级封装,目前来说,MLib已经不再进行功能更新了,好像都不更新了!具体去官网了解。 由于官网推荐的是学习和使用 spark dataframe,而且,现实生活中很多数据格式、python库、 阅读全文
posted @ 2020-01-09 15:59 Tony学长 阅读(268) 评论(0) 推荐(0) 编辑