文章分类 -  自然语言处理

摘要:一 概念: 从属词:一个词修饰另一个词 支配词:被修饰的词语 依存关系:从属词与支配词间语法关系 依存句法树:将一个句子中所有词语的依存关系以有 向的形式表示出来,就会得到一颗树 依存句法树库:由大量人工标注的依存句法树组成的语料库 依存句法分析:分析句子的依存语法的一种中高级NLP人物,其输入通常 阅读全文
posted @ 2020-01-27 13:02 秋华
摘要:一概念: 文本分类:将一个文档归类到一个或多个类别中的自然语言处理任务 类别即标签 多标签分类:一篇文档可能属于多个类别 二流程: a.人工标注文档的类别生成文本分类语料库 代码: # -*- coding:utf-8 -*- # Author: hankcs # Date: 2019-01-03 阅读全文
posted @ 2020-01-26 21:04 秋华
摘要:一 概念: 聚类:将给定对象的集合划分为不同子集的过程,子集被称为簇 文本聚类:对文档进行聚类分析 硬聚类:每个元素被确定地归入一个簇 软聚类:每个元素与每个簇都存在一定的从属程度,只不过该程度有大小 划分式聚类算法:划分聚类的结果是一系列不相交的子集 层次聚类算法:层次及聚类的结果是一棵树,叶子节 阅读全文
posted @ 2020-01-26 16:43 秋华
摘要:一:新词提取 a.思路: (1) 提取出大量文本(生语料)中的词语,无论新旧: 计算出左右信息熵与互信息之后,将两个指标低于一定阈值的片段过滤掉,剩下的片段按频次降序排列,截取最高频次的N个片段即完成了词语提取流程 (2)用词典过滤掉已有的词语,于是等到新词 b.代码: # -*- coding:u 阅读全文
posted @ 2020-01-25 21:38 秋华
摘要:1.利用成熟的语料库对工程的生语料进行分词+词性标注 # 第一步 生成分词+词性标注的模型 from pyhanlp import * import zipfile import os from pyhanlp.static import download, remove_file, HANLP_D 阅读全文
posted @ 2020-01-25 20:27 秋华
摘要:前言:自然语言处理入门(何晗著)第7章 词性标注 一 概念: 分词语料库,词性标注语料库,标注集 二 流程: 工程上通常在大型分词语料库上训练分词器,然后与小型词性标注语料库上的词性标注模型灵活组合为一个异源的流水线式词法分析器 即先分别训练分词器以及词性标注模型,将分词结果运用到词性标注模型上 , 阅读全文
posted @ 2020-01-21 10:24 秋华
摘要:前言:自然语言处理入门(何晗著)第8章 识别专门领域中的命名实体 一 自定义命名实体操作流程: 1.建立专门领域命名实体识别语料库 a.收集该领域的文本,作为标注语料库的原料,称为生语料 b.标注生语料,形成熟语料 2.训练领域模型 3.利用模型进行预测 模型预测流程: 1.对句子分词 2.对分词好 阅读全文
posted @ 2020-01-19 17:15 秋华