随笔分类 -  NLP

CRF
摘要:转载,具体了解,点击CRF 阅读全文

posted @ 2019-09-04 10:05 农夫三拳有點疼 阅读(127) 评论(0) 推荐(0) 编辑

NLP—三种中文分词工具
摘要:本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。 首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分词模型文件cws.model。在用户字典中添加以下5个词语: 经 少安 贺凤英 F-35战斗机 埃达 阅读全文

posted @ 2019-09-02 16:07 农夫三拳有點疼 阅读(1510) 评论(0) 推荐(0) 编辑

文本情感分析
摘要:一、情感分析简介 文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。 本文将介绍情感分析中的情感极性(倾向)分析。所谓情感极性分析 阅读全文

posted @ 2019-09-02 15:51 农夫三拳有點疼 阅读(3323) 评论(3) 推荐(1) 编辑

NLP—词义消岐(WSD)的简介与实现
摘要:一、词义消岐简介 词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务。 那么,什么是词义消岐呢?通常,在我们的自然语言中,不管是英语,还是中文,都有多义词存在。这些多义词的存在,会让人对句子的意思产生混淆,但人通 阅读全文

posted @ 2019-09-02 15:42 农夫三拳有點疼 阅读(565) 评论(0) 推荐(0) 编辑

CRF++实现命名实体识别(NER)
摘要:一、CRF与NER简介 CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场。 较为简单的条件随机场是定义在线性链上的条件随机场,称为线性 阅读全文

posted @ 2019-09-02 15:40 农夫三拳有點疼 阅读(638) 评论(0) 推荐(0) 编辑

NLP—中文预处理之繁简体转换及获取拼音
摘要:在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现。 首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可: langconv.py 地址: https://raw.githubusercontent.com 阅读全文

posted @ 2019-09-02 15:39 农夫三拳有點疼 阅读(525) 评论(0) 推荐(0) 编辑

分词工具pyltp的使用
摘要:pyltp的简介 语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。 语言技术平台架构 pyltp 是 LTP 的 Python 封装,同时支持 阅读全文

posted @ 2019-09-02 15:36 农夫三拳有點疼 阅读(808) 评论(0) 推荐(0) 编辑

NLP用深度学习实现命名实体识别(NER)
该文被密码保护。

posted @ 2019-09-02 15:33 农夫三拳有點疼 阅读(3) 评论(0) 推荐(0) 编辑

NLP命名实体识别(NER)
摘要:本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER)。 常见算法如下: 命名实体识别(Named Entity Recognition,简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的 阅读全文

posted @ 2019-09-02 15:30 农夫三拳有點疼 阅读(1742) 评论(0) 推荐(0) 编辑

NLP词形还原(Lemmatization)
摘要:词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。 简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。比如,单词“cars”词形还原后的 阅读全文

posted @ 2019-09-02 15:25 农夫三拳有點疼 阅读(409) 评论(0) 推荐(0) 编辑

NLP探究TF-IDF的原理
摘要:TF-IDF介绍 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 在NLP中,TF-IDF的计算公式如下: 阅读全文

posted @ 2019-09-02 15:22 农夫三拳有點疼 阅读(476) 评论(0) 推荐(0) 编辑

NLP词袋模型及句子相似度
摘要:本文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine similarity)。 首先,让我们来看一下,什么是词袋模型。我们以下面两个简单句子为例: 通常,NLP无法一下子处理完整的段落或句子,因此,第一步往往是分句和分词。这 阅读全文

posted @ 2019-09-02 15:16 农夫三拳有點疼 阅读(387) 评论(0) 推荐(0) 编辑

NLP—gensim
摘要:前 言 Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 1 基本概念 阅读全文

posted @ 2019-08-27 13:19 农夫三拳有點疼 阅读(146) 评论(0) 推荐(0) 编辑

LDA主题模型
摘要:1、LDA概述 在机器学习领域,LDA是两个常用模型的简称:线性判别分析(Linear Discriminant Analysis)和 隐含狄利克雷分布(Latent Dirichlet Allocation)。本文的LDA仅指代Latent Dirichlet Allocation. LDA 在主 阅读全文

posted @ 2019-08-12 10:21 农夫三拳有點疼 阅读(294) 评论(0) 推荐(0) 编辑

jieba分词
摘要:在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名、地名等需要考虑作为一个整体,比如New York)。而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词。而在中文分词中最好用的方法可以说是jieba分词。接下来我们来介绍下jieba分词的特点、原 阅读全文

posted @ 2019-08-12 10:19 农夫三拳有點疼 阅读(1878) 评论(0) 推荐(0) 编辑

朴素贝叶斯(NB)
摘要:一、分类技术 定义:给定一个对象X,将其划分为到预定义好的某一个类别Yi中。 -输入 : X -输出: Y (取值于有限集合{y1,y2,y3....yn}) 应用:邮件是否垃圾,病人分类,点击是否有效等等。 通俗理解: 这里输入对象是一篇文章X,那么到底是军事还是财经就是Y。 常见的分类有二值分类 阅读全文

posted @ 2019-08-05 14:30 农夫三拳有點疼 阅读(168) 评论(0) 推荐(0) 编辑

自然语言处理TF-IDF实践Demo
摘要:1 NLP(自然语言处理) 1.1相似度 相似度和距离之间关系: 1、文本相似度: 1) 语义相似、但字面不相似: 老王的个人简介 铁王人物介绍 2) 字面相似、但是语义不相似: 我吃饱饭了 我吃不饱饭 2、方案: 1) 语义相似:依靠用户行为,最基本的方法:(1)基于共点击的行为(协同过滤),(2 阅读全文

posted @ 2019-07-11 14:38 农夫三拳有點疼 阅读(868) 评论(0) 推荐(0) 编辑

导航