自然语言处理 - 随笔分类 - happygril3

条件随机场_CRF

摘要：无向图举例：“Bob drank coffee at Starbucks” 标记方式1：(名词，动词，名词，介词，名词) 称为l 标记方式2：（名词，动词，动词，介词，名词）挑选出一个最靠谱的：我们给每一个标注序列打分，打分越高代表这个标注序列越靠谱，如，凡是标注中出现了动词后面还是动词的标注阅读全文

posted @ 2018-12-06 19:56 happygril3 阅读(142) 评论(0) 推荐(0)

隐马尔科夫_HMM

摘要：有向图抽象：λ代表输入：输入一个句子，λi表示句子中的每个字 O代表输出：【B词首/M词中/E词尾/S单独成词】 max=maxP(O1 O2 On/ λ1 λ2 λn）假设：（1）当前观察值只与当前隐藏状态有关。观察值相互独立（2）当前隐藏状态只与前一个状态有关图结构：λ代表输入的词，O 阅读全文

posted @ 2018-12-06 19:27 happygril3 阅读(90) 评论(0) 推荐(0)

词频统计

摘要：def frequncy(data,n): import numpy as np import jieba.posseg as pog text = '' for i in np.arange(n): text += str(data.ix[i, 'comment']) stop_property 阅读全文

posted @ 2018-11-19 17:29 happygril3 阅读(374) 评论(0) 推荐(0)

wordvec_词的相似度

摘要：import gensimfrom gensim.models import word2vecimport loggingimport jiebaimport osimport numpy as npdef cut_txt(old_file): import jieba global cut_fil 阅读全文

posted @ 2018-11-19 11:48 happygril3 阅读(296) 评论(0) 推荐(0)

Wordvec_句子相似度

摘要：import jiebafrom jieba import analyseimport numpyimport gensimimport codecsimport pandas as pdimport jieba.posseg as pogfrom gensim.models import Word 阅读全文

posted @ 2018-11-19 11:36 happygril3 阅读(602) 评论(0) 推荐(0)

句子相似度_tf/idf

摘要：import mathfrom math import isnanimport pandas as pd#结巴分词，切开之后，有分隔符def jieba_function(sent): import jieba sent1 = jieba.cut(sent) s = [] for each in s 阅读全文

posted @ 2018-11-19 10:48 happygril3 阅读(500) 评论(0) 推荐(0)

word2vec_文本相似度

摘要：#提取关键词#关键词向量化#相似度计算from jieba import analyseimport numpyimport gensim# 实现给出任意字符串，获取字符串中某字符的位置以及出现的总次数def get_char_pos(string,char): chPos=[] try: chPo 阅读全文

posted @ 2018-11-19 10:32 happygril3 阅读(4149) 评论(0) 推荐(0)

word2vec_训练模型

摘要：from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentence# 原始的训练语料转化成一个sentence的迭代器,每一次迭代返回的sentence是一个word（utf8格式）的列表def vcto 阅读全文

posted @ 2018-11-19 10:30 happygril3 阅读(358) 评论(0) 推荐(0)

情感分析_积极消极词库

摘要：import jiebaimport numpy as np# 打开词典文件，返回列表def open_dict(Dict='hahah',path = 'C:\E\Textming\Textming/'): path = path + '%s.txt' %Dict dictionary = ope 阅读全文

posted @ 2018-11-16 17:35 happygril3 阅读(2279) 评论(1) 推荐(0)

主题提取_自己的代码

摘要：def cmp(e1,e2): #输出关键词，按照关键词的计算分值排序，在得分相同，根据关键词排序 import numpy as np res=np.sign(e1[1]-e2[1]) if res!=0: return res else: a=e1[0]+e2[0] b=e2[0]+e1[0] 阅读全文

posted @ 2018-11-16 17:14 happygril3 阅读(385) 评论(0) 推荐(0)

gensim_主题提取

摘要：# https://blog.csdn.net/whzhcahzxh/article/details/17528261# gensim包中引用corpora,models, similarities，分别做语料库建立，模型库和相似度比较库from gensim import corpora, mod 阅读全文

posted @ 2018-11-16 16:38 happygril3 阅读(936) 评论(0) 推荐(0)

Snownlp

摘要：from snownlp import SnowNLP text='宝贝自拍很帅！！！注意休息～'s=SnowNLP(text)#分词print(s.words)#词性for tag in s.tags: print(tag)#情感度,积极的概率print(s.sentiments)#关键词prin 阅读全文

posted @ 2018-11-16 15:48 happygril3 阅读(199) 评论(0) 推荐(0)

词云

摘要：from scipy.misc import imread # 这是一个处理图像的函数from wordcloud import WordCloud,STOPWORDS,ImageColorGeneratorimport matplotlib.pyplot as pltimport pandas a 阅读全文

posted @ 2018-11-16 14:59 happygril3 阅读(175) 评论(0) 推荐(0)

关键词提取_textbank

摘要：脱离语料库，仅对单篇文档提取 (1) pageRank算法：有向无权，平均分配贡献度基本思路：链接数量：一个网页越被其他的网页链接，说明这个网页越重要链接质量：一个网页被一个越高权值的网页链接，表明这个网页越重要思路：将每个网页初始得分为1 通过多次迭代对每个网页进行收敛若收敛，则收敛时的阅读全文

posted @ 2018-11-07 19:11 happygril3 阅读(221) 评论(0) 推荐(0)

关键词提取_tf_idf

摘要：TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率 TF:统计一个词在文档中出现的频次，次数越多，表达能力越强 IDF:统计一个词在文档集的多少篇文档中出现，一个词在越少的文档中出现，则对该文档的区分能力就越强词i在文档j中出现的概阅读全文

posted @ 2018-11-07 18:16 happygril3 阅读(337) 评论(0) 推荐(0)

匹配分词

摘要：规则分词：简单高效，但是词典的维护是一个庞大的工程。正向分词： 1、统计分词词典，确定词典中最长词条的字符m； 2、从左向右取待切分语句的m个字符作为匹配字段，查找词典，如果匹配成功，则作为一个切分后的词语，否则，去掉待匹配字符的最后一个继续查找词典，重复上述步骤直到切分出所有词语。dictA 阅读全文

posted @ 2018-11-06 16:57 happygril3 阅读(274) 评论(0) 推荐(0)

汉语词性

摘要：实词：有实际意义的词，包括： 1.名词：表示人或事物名称的词。有人物名词：如学生、群众、老头、妇女、同志、叔叔、维吾尔族、酒鬼等；有事物名词：如笔、杉木、蜗牛、猎豹、奥托、棒球、战斗机、冥王星、思想、中学、物理、过程等；有时间名词：如上午、过去、将来、午夜、三更、甲戊、世纪等；有方位名词：如阅读全文

posted @ 2018-11-06 16:17 happygril3 阅读(2078) 评论(0) 推荐(0)

词性

摘要：# a--形容词--# b--区别词--所有,总，# c --连词--和，可以，由，同时，但，所以# d--副词--就，同样，也，很，真的，都，真好，反正 #df--# e--叹词--唉，哦# f--方位词--间，下# g--语素--# h--前接成分# i--成语--# j--简称# k-后接成份阅读全文

posted @ 2018-11-04 17:24 happygril3 阅读(377) 评论(0) 推荐(0)

繁体简体转化_langconv.py

摘要：from copy import deepcopyimport retry: import psyco psyco.full()except: passtry: from zh_wiki import zh2Hant, zh2Hansexcept ImportError: from zhtools. 阅读全文

posted @ 2018-11-04 15:16 happygril3 阅读(1772) 评论(0) 推荐(0)

繁体和简体转化

摘要：from langconv import *def simple2tradition(line): #将简体转换成繁体 line = Converter('zh-hant').convert(line) return linedef tradition2simple(line): # 将繁体转换成简阅读全文

posted @ 2018-11-04 15:14 happygril3 阅读(414) 评论(0) 推荐(0)

happygril3

随笔分类 - 自然语言处理

导航

公告