随笔分类 -  机器学习

写一下机器学习路程的笔记
摘要:背景调研 由于环境可能会导致系统状态迁移,产品有异常。需要人工参数调整。 注塑成型工艺的虚拟量测 目标 以大数据方法感知不良产品,针对成型工艺品质异常尺寸超规问题进行虚拟量测。 不仅能预测正常情况下的尺寸,非正常情况下的也要能预测出来。 要关注故障率。 猜测 1、关注异常产品与非异常产品,看特征与尺 阅读全文
posted @ 2025-05-11 19:57 土星狗蛋 阅读(129) 评论(0) 推荐(0)
摘要:正则化是一种常用的机器学习技术,用于防止模型过拟合。当训练模型时,如果模型过于复杂或者训练数据较少,就容易导致过拟合现象,即模型在训练数据上表现很好,但在新数据上表现较差。为了解决这个问题,可以引入正则化技术。 正则化通过在损失函数中添加一个正则项来实现,这个正则项通常是模型参数的范数。常见的正则化 阅读全文
posted @ 2024-03-09 23:55 土星狗蛋 阅读(281) 评论(0) 推荐(0)
摘要:优点:数据比较少的时候仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式比较敏感 适用的数据类型:标称型数据 将一组单词转换为一组数字 使用数字计算概率 著名应用:使用朴素贝叶斯过滤垃圾邮件 分类思路: (1)收集数据:提供文本文件 (2)准备数据:将文本文件解析成词条向量 (3)分析数据: 阅读全文
posted @ 2020-12-04 11:54 土星狗蛋 阅读(240) 评论(0) 推荐(0)
摘要:Chapter3 11.26 决策树 主要优势:数据形式非常容易理解 可以使用不熟悉的数据集合,并从中提取出一系列规划 给出的结果往往可以匹敌在当前领域具有几十年工作经验的人类专家 优点:计算复杂度不高,输出结果容易理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能会出现过度匹配的问题 阅读全文
posted @ 2020-11-27 13:37 土星狗蛋 阅读(119) 评论(0) 推荐(0)
摘要:写的很粗糙,以后实现了具体的算法再改进内容 ——————————————————————————————————————————————— k近邻算法: 概述: 优点: 1、精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂高,空间复杂高 适用数据范围:数值型与标称型 原理:存在一个样本数据集合 阅读全文
posted @ 2020-11-26 10:34 土星狗蛋 阅读(161) 评论(0) 推荐(0)
摘要:11.23 排名前10的数据挖掘算法: C4.5决策树,K-mean,支持向量机,Apriori、最大期望算法(EM) PageRank算法,AdaBoost算法,k-近邻算法(kNN) 朴素贝叶斯算法(NB)、分类回归树(CART) 分类问题:有限个数的类别 回归:连续数据的预测 通常有两套独立的 阅读全文
posted @ 2020-11-26 10:19 土星狗蛋 阅读(394) 评论(0) 推荐(0)