摘要:无向图 举例:“Bob drank coffee at Starbucks” 标记方式1:(名词,动词,名词,介词,名词) 称为l 标记方式2:(名词,动词,动词,介词,名词) 挑选出一个最靠谱的: 我们给每一个标注序列打分,打分越高代表这个标注序列越靠谱,如,凡是标注中出现了动词后面还是动词的标注
阅读全文
摘要:有向图 抽象:λ代表输入:输入一个句子,λi表示句子中的每个字 O代表输出:【B词首/M词中/E词尾/S单独成词】 max=maxP(O1 O2 On/ λ1 λ2 λn) 假设: (1)当前观察值只与当前隐藏状态有关。观察值相互独立 (2)当前隐藏状态只与前一个状态有关 图结构:λ代表输入的词,O
阅读全文
摘要:def frequncy(data,n): import numpy as np import jieba.posseg as pog text = '' for i in np.arange(n): text += str(data.ix[i, 'comment']) stop_property
阅读全文
摘要:import gensimfrom gensim.models import word2vecimport loggingimport jiebaimport osimport numpy as npdef cut_txt(old_file): import jieba global cut_fil
阅读全文
摘要:import jiebafrom jieba import analyseimport numpyimport gensimimport codecsimport pandas as pdimport jieba.posseg as pogfrom gensim.models import Word
阅读全文
摘要:import mathfrom math import isnanimport pandas as pd#结巴分词,切开之后,有分隔符def jieba_function(sent): import jieba sent1 = jieba.cut(sent) s = [] for each in s
阅读全文
摘要:#提取关键词#关键词向量化#相似度计算from jieba import analyseimport numpyimport gensim# 实现给出任意字符串,获取字符串中某字符的位置以及出现的总次数def get_char_pos(string,char): chPos=[] try: chPo
阅读全文
摘要:from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentence# 原始的训练语料转化成一个sentence的迭代器,每一次迭代返回的sentence是一个word(utf8格式)的列表def vcto
阅读全文
摘要:import jiebaimport numpy as np# 打开词典文件,返回列表def open_dict(Dict='hahah',path = 'C:\E\Textming\Textming/'): path = path + '%s.txt' %Dict dictionary = ope
阅读全文
摘要:def cmp(e1,e2): #输出关键词,按照关键词的计算分值排序,在得分相同,根据关键词排序 import numpy as np res=np.sign(e1[1]-e2[1]) if res!=0: return res else: a=e1[0]+e2[0] b=e2[0]+e1[0]
阅读全文
摘要:# https://blog.csdn.net/whzhcahzxh/article/details/17528261# gensim包中引用corpora,models, similarities,分别做语料库建立,模型库和相似度比较库from gensim import corpora, mod
阅读全文
摘要:from snownlp import SnowNLP text='宝贝自拍很帅!!!注意休息~'s=SnowNLP(text)#分词print(s.words)#词性for tag in s.tags: print(tag)#情感度,积极的概率print(s.sentiments)#关键词prin
阅读全文
摘要:from scipy.misc import imread # 这是一个处理图像的函数from wordcloud import WordCloud,STOPWORDS,ImageColorGeneratorimport matplotlib.pyplot as pltimport pandas a
阅读全文
摘要:脱离语料库,仅对单篇文档提取 (1) pageRank算法:有向无权,平均分配贡献度 基本思路: 链接数量:一个网页越被其他的网页链接,说明这个网页越重要 链接质量:一个网页被一个越高权值的网页链接,表明这个网页越重要 思路:将每个网页初始得分为1 通过多次迭代对每个网页进行收敛 若收敛,则收敛时的
阅读全文
摘要:TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率 TF:统计一个词在文档中出现的频次,次数越多,表达能力越强 IDF:统计一个词在文档集的多少篇文档中出现,一个词在越少的文档中出现,则对该文档的区分能力就越强 词i在文档j中出现的概
阅读全文
摘要:规则分词: 简单高效,但是词典的维护是一个庞大的工程。正向分词: 1、统计分词词典,确定词典中最长词条的字符m; 2、从左向右取待切分语句的m个字符作为匹配字段,查找词典,如果匹配成功,则作为一个切分后的词语, 否则,去掉待匹配字符的最后一个继续查找词典,重复上述步骤直到切分出所有词语。dictA
阅读全文
摘要:实词:有实际意义的词,包括: 1.名词:表示人或事物名称的词。 有人物名词:如学生、群众、老头、妇女、同志、叔叔、维吾尔族、酒鬼等; 有事物名词:如笔、杉木、蜗牛、猎豹、奥托、棒球、战斗机、冥王星、思想、中学、物理、过程等; 有时间名词:如上午、过去、将来、午夜、三更、甲戊、世纪等; 有方位名词:如
阅读全文
摘要:# a--形容词--# b--区别词--所有,总,# c --连词--和,可以,由,同时,但,所以# d--副词--就,同样,也,很,真的,都,真好,反正 #df--# e--叹词--唉,哦# f--方位词--间,下# g--语素--# h--前接成分# i--成语--# j--简称# k-后接成份
阅读全文
摘要:from copy import deepcopyimport retry: import psyco psyco.full()except: passtry: from zh_wiki import zh2Hant, zh2Hansexcept ImportError: from zhtools.
阅读全文
摘要:from langconv import *def simple2tradition(line): #将简体转换成繁体 line = Converter('zh-hant').convert(line) return linedef tradition2simple(line): # 将繁体转换成简
阅读全文