随笔分类 -  NLP

深度学习 —— 使用 gensim 实现 word2vec
摘要:在自然语言处理领域中,将单词(words)或词语(phases)映射到向量空间(vector space)中可以很容易就得到单词之间的相似度,因为向量空间中两个向量的相似度很容易求得,比如余弦相似度。1. word2vecword2vec:一种无监督深度学习方法,... 阅读全文
posted @ 2017-05-28 22:17 未雨愁眸 阅读(258) 评论(0) 推荐(0)
常见分词工具包
摘要:1. 中文thulac:THULAC:一个高效的中文词法分析工具包 下载:pip install thulac简单使用:import thulacseg = thulac.thulac()text = seg.cut('我爱自然语言处理') # [['我... 阅读全文
posted @ 2017-03-10 19:08 未雨愁眸 阅读(138) 评论(0) 推荐(0)
分位数(quantiles)、Z-score 与 F-score
摘要:0. 分位数(quantiles)因为累计分布函数(cdf,F−1)是单调增函数,因此其有反函数,不妨记为 F−1。其真实的含义在于,如果 F 是 X 的 cdf,则 F−1(α) 的函数值为:P(X≤xα)=α这称为 α-分位;F−1 的自变量是概率,1. Z-sc... 阅读全文
posted @ 2016-11-04 20:00 未雨愁眸 阅读(680) 评论(0) 推荐(0)
NLP(paper + code)
摘要:0. 开源的库genismkeras wrapper of theano/TensorFlow1. CNN for NLPConvolutional Neural Networks for Sentence ClassificationYoon KimSentence... 阅读全文
posted @ 2016-11-04 15:50 未雨愁眸 阅读(195) 评论(0) 推荐(0)
jieba(结巴)—— Python 中文分词
摘要:学术界著名的分词器:中科院的 ICTCLAS,代码并不十分好读哈工大的 ltp,东北大学的 NIU Parser,另外,中文 NLP 和英文 NLP 不太一致的地方还在于,中文首先需要分词,针对中文的分词问题,有两种基本的解决思路:启发式(Heuristic):查字典... 阅读全文
posted @ 2016-10-27 12:43 未雨愁眸 阅读(251) 评论(0) 推荐(0)
sklearn 文本处理
摘要:from sklearn.feature_extraction.text import **1. 向量的统计、tf-idf 的计算考虑如下预料,三行 ⇒ 三个文档,不重复的单词共有 8 个,corpus = ['I love you', 'You love ... 阅读全文
posted @ 2016-10-27 11:55 未雨愁眸 阅读(250) 评论(0) 推荐(0)
学习 NLP(一)—— TF-IDF
摘要:TF-IDF(Term Frequency & Inverse Document Frequency),是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是:如果某个词或短语在一篇文章中出现的频率(term frequency)高,并且在其他文章中很少出现,则认... 阅读全文
posted @ 2016-10-25 19:51 未雨愁眸 阅读(131) 评论(0) 推荐(0)