ming_tian0826 - 博客园

2020年3月

摘要：背景维数灾难是机器学习中常见的现象，具体是指随着特征维数的不断增加，需要处理的数据相对于特征形成的空间而言比较稀疏，由有限训练数据拟合的模型可以很好的适用于训练数据，但是对于未知的测试数据，很大几率距离模型空间较远，训练的模型不能处理这些未知数据点，从而形成“过拟合”的现象。方案既然维数灾难严阅读全文

posted @ 2020-03-28 22:54 ming_tian0826 阅读(433) 评论(0) 推荐(0)

2020年2月

随机森林原理和PySpark实现

摘要：输入 400条用户购买记录，每条记录包含用户id、性别、年龄、薪水、是否购买，具体如下图：输出输出1：从输入1中的400条数据中选择一部分作为训练数据，训练得到随机森林模型。输出2：根据输出1得到的随机森林模型，对从400条输入数据中挑选出来的测试数据进行购买预测，输出模型的准确率。工具本阅读全文

posted @ 2020-02-16 14:31 ming_tian0826 阅读(2314) 评论(0) 推荐(1)

基于矩阵分解的协同过滤算法

摘要：输入稀疏的物品用户评分矩阵。输出输出1：基于矩阵分解得到的两个子矩阵。输出2：根据输出2得到的已被填充的物品用户评分矩阵前言当用户、物品较多的时候，基于用户和物品的协同过滤算法存在稀疏性的问题，将矩阵分解应用于协同过滤算法可以提取物品、用户的隐式特征，发现一些不是显而易见的特征，在一定程阅读全文

posted @ 2020-02-16 01:06 ming_tian0826 阅读(3019) 评论(1) 推荐(0)

基于物品的协同过滤算法

摘要：输入输入：物品用户行为矩阵，行为矩阵中的元素只有0和1，0代表行为的负类，1代表行为的正类。比如不喜欢与喜欢、不点赞与点赞、不收藏与收藏。输出输出1：根据输入可计算得到物品相似度矩阵；输出2：根据输入中物品用户行为矩阵得到用户喜欢的物品，用户喜欢的物品结合输出1得到的物品相似度矩阵，可以计算阅读全文

posted @ 2020-02-16 00:34 ming_tian0826 阅读(3275) 评论(0) 推荐(0)

基于内容的推荐算法

摘要：输入输入1：包含200部电影的数据集，集合中包含两列，一列为电影的id，一列为电影的流派集合，如下图所示：输入2：一个用户的电影兴趣记录，like字段为1表示喜欢，0表示不喜欢，如下图所示：输出输出1：输入1的One-Hot编码形式，类似下图所示：输出2：根据输入2和输出1，从电影数据集中阅读全文

posted @ 2020-02-15 23:56 ming_tian0826 阅读(2068) 评论(0) 推荐(0)

逻辑回归的原理和python实现

摘要：输入鸢尾花卉数据集,数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。输出根据手动实现的逻辑回归模型对鸢尾花卉数据集分类的预测结果。原理逻辑回归处理的是分类问题，线性回归处理的是回归问题，这是两者最本质的区别。逻辑回归算法是一种分类算法，适用于标签取值离散的情况。阅读全文

posted @ 2020-02-15 23:38 ming_tian0826 阅读(760) 评论(0) 推荐(0)

TF-IDF原理以及sklearn实现和测试

摘要：输入输入1：本文章采用“python实现中文文档jieba分词和分词结果写入excel文件”文章中输出的两个关于正面中文评价、负面中文评价的excel表格作为输入。输入2：一些文档分词后得到的字符串列表。输出输出1：根据输入1，训练得到的逻辑回归模型。输出2：根据输入2和输出1得到的模阅读全文

posted @ 2020-02-15 22:56 ming_tian0826 阅读(2203) 评论(0) 推荐(0)

python实现中文文档jieba分词和分词结果写入excel文件

摘要：输入本篇文章中采用的是对京东某商品的2000个正面评价txt文档和2000个负面评价txt文档，总共是4000个txt文档。一个正面评价txt文档中的内容类似如下： 1 钢琴漆，很滑很亮。2 LED宽屏，看起来很爽3 按键很舒服4 活动赠品多一个负面评价txt文档中的内容类似如下：送货上门后阅读全文

posted @ 2020-02-15 22:30 ming_tian0826 阅读(5358) 评论(1) 推荐(0)

公告