随笔分类 - NLP
深度学习 —— 使用 gensim 实现 word2vec
摘要:在自然语言处理领域中,将单词(words)或词语(phases)映射到向量空间(vector space)中可以很容易就得到单词之间的相似度,因为向量空间中两个向量的相似度很容易求得,比如余弦相似度。1. word2vecword2vec:一种无监督深度学习方法,...
阅读全文
常见分词工具包
摘要:1. 中文thulac:THULAC:一个高效的中文词法分析工具包 下载:pip install thulac简单使用:import thulacseg = thulac.thulac()text = seg.cut('我爱自然语言处理') # [['我...
阅读全文
分位数(quantiles)、Z-score 与 F-score
摘要:0. 分位数(quantiles)因为累计分布函数(cdf,F−1)是单调增函数,因此其有反函数,不妨记为 F−1。其真实的含义在于,如果 F 是 X 的 cdf,则 F−1(α) 的函数值为:P(X≤xα)=α这称为 α-分位;F−1 的自变量是概率,1. Z-sc...
阅读全文
NLP(paper + code)
摘要:0. 开源的库genismkeras wrapper of theano/TensorFlow1. CNN for NLPConvolutional Neural Networks for Sentence ClassificationYoon KimSentence...
阅读全文
jieba(结巴)—— Python 中文分词
摘要:学术界著名的分词器:中科院的 ICTCLAS,代码并不十分好读哈工大的 ltp,东北大学的 NIU Parser,另外,中文 NLP 和英文 NLP 不太一致的地方还在于,中文首先需要分词,针对中文的分词问题,有两种基本的解决思路:启发式(Heuristic):查字典...
阅读全文
sklearn 文本处理
摘要:from sklearn.feature_extraction.text import **1. 向量的统计、tf-idf 的计算考虑如下预料,三行 ⇒ 三个文档,不重复的单词共有 8 个,corpus = ['I love you', 'You love ...
阅读全文
学习 NLP(一)—— TF-IDF
摘要:TF-IDF(Term Frequency & Inverse Document Frequency),是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是:如果某个词或短语在一篇文章中出现的频率(term frequency)高,并且在其他文章中很少出现,则认...
阅读全文
浙公网安备 33010602011771号