摘要: 背景 维数灾难是机器学习中常见的现象,具体是指随着特征维数的不断增加,需要处理的数据相对于特征形成的空间而言比较稀疏,由有限训练数据拟合的模型可以很好的适用于训练数据,但是对于未知的测试数据,很大几率距离模型空间较远,训练的模型不能处理这些未知数据点,从而形成“过拟合”的现象。 方案 既然维数灾难严 阅读全文
posted @ 2020-03-28 22:54 ming_tian0826 阅读(431) 评论(0) 推荐(0)
摘要: 输入 400条用户购买记录,每条记录包含用户id、性别、年龄、薪水、是否购买,具体如下图: 输出 输出1:从输入1中的400条数据中选择一部分作为训练数据,训练得到随机森林模型。 输出2:根据输出1得到的随机森林模型,对从400条输入数据中挑选出来的测试数据进行购买预测,输出模型的准确率。 工具 本 阅读全文
posted @ 2020-02-16 14:31 ming_tian0826 阅读(2312) 评论(0) 推荐(1)
摘要: 输入 稀疏的物品用户评分矩阵。 输出 输出1:基于矩阵分解得到的两个子矩阵。 输出2:根据输出2得到的已被填充的物品用户评分矩阵 前言 当用户、物品较多的时候,基于用户和物品的协同过滤算法存在稀疏性的问题,将矩阵分解应用于协同过滤算法可以提取物品、用户的隐式特征,发现一些不是显而易见的特征,在一定程 阅读全文
posted @ 2020-02-16 01:06 ming_tian0826 阅读(3017) 评论(1) 推荐(0)
摘要: 输入 输入:物品用户行为矩阵,行为矩阵中的元素只有0和1,0代表行为的负类,1代表行为的正类。比如不喜欢与喜欢、不点赞与点赞、不收藏与收藏。 输出 输出1:根据输入可计算得到物品相似度矩阵; 输出2:根据输入中物品用户行为矩阵得到用户喜欢的物品,用户喜欢的物品结合输出1得到的物品相似度矩阵,可以计算 阅读全文
posted @ 2020-02-16 00:34 ming_tian0826 阅读(3273) 评论(0) 推荐(0)
摘要: 输入 输入1:包含200部电影的数据集,集合中包含两列,一列为电影的id,一列为电影的流派集合,如下图所示: 输入2:一个用户的电影兴趣记录,like字段为1表示喜欢,0表示不喜欢,如下图所示: 输出 输出1:输入1的One-Hot编码形式,类似下图所示: 输出2:根据输入2和输出1,从电影数据集中 阅读全文
posted @ 2020-02-15 23:56 ming_tian0826 阅读(2066) 评论(0) 推荐(0)
摘要: 输入 鸢尾花卉数据集,数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。 输出 根据手动实现的逻辑回归模型对鸢尾花卉数据集分类的预测结果。 原理 逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者最本质的区别。逻辑回归算法是一种分类算法,适用于标签取值离散的情况。 阅读全文
posted @ 2020-02-15 23:38 ming_tian0826 阅读(760) 评论(0) 推荐(0)
摘要: 输入 输入1: 本文章采用“python实现中文文档jieba分词和分词结果写入excel文件”文章中输出的两个关于正面中文评价、负面中文评价的excel表格作为输入。 输入2: 一些文档分词后得到的字符串列表。 输出 输出1:根据输入1,训练得到的逻辑回归模型。 输出2:根据输入2和输出1得到的模 阅读全文
posted @ 2020-02-15 22:56 ming_tian0826 阅读(2202) 评论(0) 推荐(0)
摘要: 输入 本篇文章中采用的是对京东某商品的2000个正面评价txt文档和2000个负面评价txt文档,总共是4000个txt文档。 一个正面评价txt文档中的内容类似如下: 1 钢琴漆,很滑很亮。2 LED宽屏,看起来很爽3 按键很舒服4 活动赠品多 一个负面评价txt文档中的内容类似如下: 送货上门后 阅读全文
posted @ 2020-02-15 22:30 ming_tian0826 阅读(5357) 评论(1) 推荐(0)