随笔分类 - 机器学习
摘要:在用户输入一个单词的时候,判断这个单词是否拼写错误,如果拼写错误,找到正确的单词并且返回。 思路: 1.准备词库 2.判断一下输入的单词是否在词库中,如果在,输出 3.如果不在,找到与之相对的编辑距离为1的所有单词 4.遍历这些单词,并输出在吃苦中出现次数最多的单词 中文单词拼写检查思路: 1.用所
阅读全文
摘要:朴素:在给定类别的情况下,各个特征相互独立 贝叶斯公式:P(A|B)=P(A)P(B|A)/P(B) 朴素贝叶斯:P(特征|类别)=P(特征)P(类别|特征)/P(类别) 核心思想:算一下概率,那种类别概率大,就分为那种类别。 在scikit-learn中的实现: 1.高斯贝叶斯:数据集符合高斯(正
阅读全文
摘要:线性回归的输出值的范围通常是无法限定的。逻辑回归通过(sigmoid函数)将其转化为(0,1)区间的数值。 逻辑回归可以被理解为时一个被sigmoid函数归一化后的线性回归,也可以被视为一种广义线性模型。 逻辑回归应用举例:垃圾短信分类。可以使用TF-IDF来抽取短信的特征向量,然后用逻辑回归分类:
阅读全文
摘要:机器学习分类: 监督学习: 回归:预测的变量是连续的 分类:预测的变量是离散的 无监督学习: 聚类 半监督学习: 人工标记数据太贵 无监督有时不靠谱 机器学习常见问题 欠拟合:模型过于简单,参数不够 过拟合:模型太复杂。参数过多,特征数目过多。 三个集合: 训练集:生成模型 测试集:测试模型 开发集
阅读全文
摘要:线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 线性回归利用线性回归方程的最小平方函数对一个或多个自变量与因变量之间的关系进行建模,这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量的情况叫做多
阅读全文
摘要:KNN算法是解决分类问题的最简单的算法。同时也是最常用的算法。KNN算法也可以称作k近邻算法,是指K个最近的数据集,属于监督学习算法。 开发流程: 1.加载数据,加载成特征矩阵X与目标向量Y。 2.给定一个新的数据,算出新数据和所有数据的距离,找到距离最近的前K个数据,K的取值范围一般是3-15个。
阅读全文