05 2017 档案

摘要:如果你在2015年做过文本分析项目,那么你大概率用的是word2vec模型。Sense2vec是基于word2vec的一个新模型,你可以利用它来获取更详细的、与上下文相关的词向量。本文主要介绍该模型的思想以及一些简单的实现。 多义性:word2vec遇到的问题 当人们编写字典和辞典时,我们会列出每个 阅读全文
posted @ 2017-05-26 09:32 Donal 阅读(544) 评论(0) 推荐(0)
摘要:Try caching the stopwords object, as shown below. Constructing this each time you call the function seems to be the bottleneck. I ran this through the 阅读全文
posted @ 2017-05-25 09:20 Donal 阅读(5650) 评论(0) 推荐(0)
摘要:nohup command > myout.file 2>&1 & 阅读全文
posted @ 2017-05-24 17:55 Donal 阅读(244) 评论(0) 推荐(0)
摘要:NLTK is used primarily for general NLP tasks (tokenization, POS tagging, parsing, etc.) Sklearn is used primarily for machine learning (classification 阅读全文
posted @ 2017-05-24 15:13 Donal 阅读(2682) 评论(0) 推荐(0)
摘要:转自:公子天的技术博客http://www.cnblogs.com/iloveai/ 本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现。 Word2vec Word2vec并不是一个模型——它其实是2013年 阅读全文
posted @ 2017-05-24 14:49 Donal 阅读(1628) 评论(0) 推荐(1)
摘要:转自:公子天的技术博客 What is Gensim? Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检 阅读全文
posted @ 2017-05-24 14:48 Donal 阅读(945) 评论(0) 推荐(0)
摘要:方法:运行 python -m pdb myscript.py(Pdb) 会自动停在第一行,等待调试,这时你可以看看 帮助(Pdb) h说明下这几个关键 命令<断点设置 (Pdb)b 10 #断点设置在本py的第10行或(Pdb)b ots.py:20 #断点设置到 ots.py第20行删除断点(P 阅读全文
posted @ 2017-05-24 09:52 Donal 阅读(226) 评论(0) 推荐(0)
摘要:基于sparse clone变通方法 [root@vm_test backup]# mkdir devops[root@vm_test backup]# cd devops/[root@vm_test devops]# git init #初始化空库Initialized empty Git rep 阅读全文
posted @ 2017-05-24 09:24 Donal 阅读(934) 评论(0) 推荐(0)
摘要:原文地址:http://blog.csdn.net/malefactor/article/details/50436735/ 大纲如下: 1.RNN 2.LSTM 3.GRN 4.Attention Model 5.应用 6.探讨与思考 阅读全文
posted @ 2017-05-18 16:04 Donal 阅读(917) 评论(0) 推荐(0)