随笔分类 -  NLP

摘要:按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类。 按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类。 按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类。 按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类 阅读全文
posted @ 2019-02-14 15:47 飞末
摘要:隐马尔可夫模型(HMM,hidden Markov model)是可用于标注问题的统计学模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。HMM模型主要用于语音识别,自然语言处理,生物信息,模式识别等领域。 引入 某天,你的女神告诉你说,她放假三天,将要去上海游玩,准备去欢乐谷、迪士 阅读全文
posted @ 2019-02-14 15:22 飞末
摘要:做文本分类等问题的时,需要从大量语料中提取特征,并将这些文本特征变换为数值特征。常用的有词袋模型和TF-IDF 模型 1.词袋模型 词袋模型是最原始的一类特征集,忽略掉了文本的语法和语序,用一组无序的单词序列来表达一段文字或者一个文档。可以这样理解,把整个文档集的所有出现的词都丢进袋子里面,然后无序 阅读全文
posted @ 2019-02-12 16:48 飞末
摘要:一、中文分词的介绍 中文分词就是通过计算机将句子转化成词的表示,自动识别句子中的词,在词与词之间加入边界分隔符,分割出各个词汇。 中文分词有两大难点: 1.歧义 原文:以前喜欢一个人,现在喜欢一个人 这里有两个「一个人」,但是代表的意思完全不一样。 2.分词界限 原文:这杯水还没有冷 分词一: 这 阅读全文
posted @ 2019-02-11 16:58 飞末
摘要:做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 一、什么是自然语言处理 一、什么是自然语言处理 一 阅读全文
posted @ 2019-02-04 19:35 飞末