NLP - 随笔分类 - 未雨愁眸

摘要：在自然语言处理领域中，将单词（words）或词语（phases）映射到向量空间（vector space）中可以很容易就得到单词之间的相似度，因为向量空间中两个向量的相似度很容易求得，比如余弦相似度。1. word2vecword2vec：一种无监督深度学习方法，... 阅读全文

posted @ 2017-05-28 22:17 未雨愁眸阅读(258) 评论(0) 推荐(0)

摘要：1. 中文thulac：THULAC：一个高效的中文词法分析工具包下载：pip install thulac简单使用：import thulacseg = thulac.thulac()text = seg.cut('我爱自然语言处理') # [['我... 阅读全文

posted @ 2017-03-10 19:08 未雨愁眸阅读(138) 评论(0) 推荐(0)

摘要：0. 分位数（quantiles）因为累计分布函数（cdf，F−1）是单调增函数，因此其有反函数，不妨记为 F−1。其真实的含义在于，如果 F 是 X 的 cdf，则 F−1(α) 的函数值为：P(X≤xα)=α这称为 α-分位；F−1 的自变量是概率，1. Z-sc... 阅读全文

posted @ 2016-11-04 20:00 未雨愁眸阅读(680) 评论(0) 推荐(0)

摘要：0. 开源的库genismkeras wrapper of theano/TensorFlow1. CNN for NLPConvolutional Neural Networks for Sentence ClassificationYoon KimSentence... 阅读全文

posted @ 2016-11-04 15:50 未雨愁眸阅读(195) 评论(0) 推荐(0)

摘要：学术界著名的分词器：中科院的 ICTCLAS，代码并不十分好读哈工大的 ltp，东北大学的 NIU Parser，另外，中文 NLP 和英文 NLP 不太一致的地方还在于，中文首先需要分词，针对中文的分词问题，有两种基本的解决思路：启发式（Heuristic）：查字典... 阅读全文

posted @ 2016-10-27 12:43 未雨愁眸阅读(251) 评论(0) 推荐(0)

摘要：from sklearn.feature_extraction.text import **1. 向量的统计、tf-idf 的计算考虑如下预料，三行 ⇒ 三个文档，不重复的单词共有 8 个，corpus = ['I love you', 'You love ... 阅读全文

posted @ 2016-10-27 11:55 未雨愁眸阅读(250) 评论(0) 推荐(0)

摘要：TF-IDF（Term Frequency & Inverse Document Frequency），是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是：如果某个词或短语在一篇文章中出现的频率（term frequency）高，并且在其他文章中很少出现，则认... 阅读全文

posted @ 2016-10-25 19:51 未雨愁眸阅读(131) 评论(0) 推荐(0)

随笔分类 - NLP