随笔分类 -  机器学习

摘要:算法介绍 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用 加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文 阅读全文
posted @ 2021-11-30 10:29 ddddd1234654732 阅读(108) 评论(0) 推荐(1)
摘要:简介 Word2Vec是语言模型中的一种,它是从大量文本预料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中。 Word2Vec是用来生成词向量的工具,而词向量与语言模型有着密切的关系。 基础概念 语料 看word2vec之前可以先看n-gram模型 word2vec是一个统计语言模型 阅读全文
posted @ 2021-10-13 22:56 ddddd1234654732 阅读(117) 评论(0) 推荐(0)
摘要:决策树 先来复习一下决策树,根据预测结果不同,决策树分为回归决策树和分类决策树。很多的决策树集成,就成为了森林。常见的算法有随机森林和GDBT。 决策树是一种树形结构每个内部分支都是基于一个属性,每个叶节点代表一种类型。其实决策树就是在将一个多维(特征个数)空间进行划分,切分,产生不同类别。 分类决 阅读全文
posted @ 2021-09-25 16:11 ddddd1234654732 阅读(197) 评论(0) 推荐(1)
摘要:简介 n-gram是自然语言处理NLP中一种词组序列预测和评估模型。 n-gram将日常中的一句话切分成不同单元的序列,通过前$n-1$个单元(词组)评估第n个单元的合理性。 切分单元和n数量的选择非常重要,往往决定着模型的效果。 评估语句是否合理 假设一个句子由词组序列$w_1,w_2,w_3,\ 阅读全文
posted @ 2021-09-21 22:41 ddddd1234654732 阅读(237) 评论(0) 推荐(1)
摘要:**支持向量机(support vector machines, SVM)**是一种**二分类模型**,它的基本模型是定义在特征空间上的**间隔最大的线性分类器**,间隔最大使它有别于感知机;SVM还包括**核技巧**,这使它成为实质上的非线性分类器。 阅读全文
posted @ 2021-09-02 21:46 ddddd1234654732 阅读(1066) 评论(0) 推荐(1)

Live2D