摘要: 1.查看image [root@ ~]# docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEk1995/scrapy-cluster cralwer-2.0.4 e3be52ca0a5a 2 days ago 159MBk1995/scrapy-clu 阅读全文
posted @ 2018-01-15 09:15 Donal 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 转:http://blog.csdn.net/lanxu_yy/article/details/29918015 为什么需要语言模型? 想象“语音识别”这样的场景,机器通过一定的算法将语音转换为文字,显然这个过程是及其容易出错的。例如,用户发音“Recognize Speech”,机器可能会正确地识 阅读全文
posted @ 2017-12-16 14:04 Donal 阅读(800) 评论(0) 推荐(0) 编辑
摘要: 解决方案: 最后,解决我遇到的这个问题的解决方案是来自以下链接的答案: http://www.voidcn.com/blog/z6491679/article/p-5740396.html。 另外还有一个类似的回答的链接: http://www.cnblogs.com/eastmount/p/505 阅读全文
posted @ 2017-09-10 14:39 Donal 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 如果你在2015年做过文本分析项目,那么你大概率用的是word2vec模型。Sense2vec是基于word2vec的一个新模型,你可以利用它来获取更详细的、与上下文相关的词向量。本文主要介绍该模型的思想以及一些简单的实现。 多义性:word2vec遇到的问题 当人们编写字典和辞典时,我们会列出每个 阅读全文
posted @ 2017-05-26 09:32 Donal 阅读(501) 评论(0) 推荐(0) 编辑
摘要: Try caching the stopwords object, as shown below. Constructing this each time you call the function seems to be the bottleneck. I ran this through the 阅读全文
posted @ 2017-05-25 09:20 Donal 阅读(5614) 评论(0) 推荐(0) 编辑
摘要: nohup command > myout.file 2>&1 & 阅读全文
posted @ 2017-05-24 17:55 Donal 阅读(236) 评论(0) 推荐(0) 编辑
摘要: NLTK is used primarily for general NLP tasks (tokenization, POS tagging, parsing, etc.) Sklearn is used primarily for machine learning (classification 阅读全文
posted @ 2017-05-24 15:13 Donal 阅读(2602) 评论(0) 推荐(0) 编辑
摘要: 转自:公子天的技术博客http://www.cnblogs.com/iloveai/ 本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现。 Word2vec Word2vec并不是一个模型——它其实是2013年 阅读全文
posted @ 2017-05-24 14:49 Donal 阅读(1541) 评论(0) 推荐(1) 编辑
摘要: 转自:公子天的技术博客 What is Gensim? Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检 阅读全文
posted @ 2017-05-24 14:48 Donal 阅读(926) 评论(0) 推荐(0) 编辑
摘要: 方法:运行 python -m pdb myscript.py(Pdb) 会自动停在第一行,等待调试,这时你可以看看 帮助(Pdb) h说明下这几个关键 命令<断点设置 (Pdb)b 10 #断点设置在本py的第10行或(Pdb)b ots.py:20 #断点设置到 ots.py第20行删除断点(P 阅读全文
posted @ 2017-05-24 09:52 Donal 阅读(210) 评论(0) 推荐(0) 编辑