自然语言处理 - 文章分类 - 秋华

hanlp学习七：依存句法分析

摘要：一概念：从属词：一个词修饰另一个词支配词：被修饰的词语依存关系：从属词与支配词间语法关系依存句法树：将一个句子中所有词语的依存关系以有向的形式表示出来，就会得到一颗树依存句法树库：由大量人工标注的依存句法树组成的语料库依存句法分析：分析句子的依存语法的一种中高级NLP人物，其输入通常阅读全文

posted @ 2020-01-27 13:02 秋华

hanlp学习六：文本分类

摘要：一概念：文本分类：将一个文档归类到一个或多个类别中的自然语言处理任务类别即标签多标签分类：一篇文档可能属于多个类别二流程： a.人工标注文档的类别生成文本分类语料库代码： # -*- coding:utf-8 -*- # Author: hankcs # Date: 2019-01-03 阅读全文

posted @ 2020-01-26 21:04 秋华

hanlp学习五：文本聚类

摘要：一概念：聚类：将给定对象的集合划分为不同子集的过程，子集被称为簇文本聚类：对文档进行聚类分析硬聚类：每个元素被确定地归入一个簇软聚类：每个元素与每个簇都存在一定的从属程度，只不过该程度有大小划分式聚类算法：划分聚类的结果是一系列不相交的子集层次聚类算法：层次及聚类的结果是一棵树，叶子节阅读全文

posted @ 2020-01-26 16:43 秋华

hanlp学习四：信息抽取

摘要：一：新词提取 a.思路：（1）提取出大量文本（生语料）中的词语，无论新旧：计算出左右信息熵与互信息之后，将两个指标低于一定阈值的片段过滤掉，剩下的片段按频次降序排列，截取最高频次的N个片段即完成了词语提取流程（2）用词典过滤掉已有的词语，于是等到新词 b.代码： # -*- coding:u 阅读全文

posted @ 2020-01-25 21:38 秋华

hanlp学习二：自定义命名体识别语料库建设

摘要：1.利用成熟的语料库对工程的生语料进行分词+词性标注 # 第一步生成分词+词性标注的模型 from pyhanlp import * import zipfile import os from pyhanlp.static import download, remove_file, HANLP_D 阅读全文

posted @ 2020-01-25 20:27 秋华

hanlp学习一：词性标注（语料库建设）

摘要：前言：自然语言处理入门（何晗著）第7章词性标注一概念：分词语料库，词性标注语料库，标注集二流程：工程上通常在大型分词语料库上训练分词器，然后与小型词性标注语料库上的词性标注模型灵活组合为一个异源的流水线式词法分析器即先分别训练分词器以及词性标注模型，将分词结果运用到词性标注模型上，阅读全文

posted @ 2020-01-21 10:24 秋华

hanlp学习三：自定义命名体识别

摘要：前言：自然语言处理入门（何晗著）第8章识别专门领域中的命名实体一自定义命名实体操作流程： 1.建立专门领域命名实体识别语料库 a.收集该领域的文本，作为标注语料库的原料，称为生语料 b.标注生语料,形成熟语料 2.训练领域模型 3.利用模型进行预测模型预测流程： 1.对句子分词 2.对分词好阅读全文

posted @ 2020-01-19 17:15 秋华

秋华

文章分类 - 自然语言处理

公告