Donal - 博客园

2018年1月15日

摘要： 1.查看image [root@ ~]# docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEk1995/scrapy-cluster cralwer-2.0.4 e3be52ca0a5a 2 days ago 159MBk1995/scrapy-clu 阅读全文

posted @ 2018-01-15 09:15 Donal 阅读(188) 评论(0) 推荐(0)

2017年12月16日

NLP | 自然语言处理 - 语言模型（Language Modeling）

摘要：转：http://blog.csdn.net/lanxu_yy/article/details/29918015 为什么需要语言模型？想象“语音识别”这样的场景，机器通过一定的算法将语音转换为文字，显然这个过程是及其容易出错的。例如，用户发音“Recognize Speech”，机器可能会正确地识阅读全文

posted @ 2017-12-16 14:04 Donal 阅读(919) 评论(0) 推荐(0)

2017年9月10日

windows: Python安装scipy,scikit-image时提示"no lapack/blas resources found"的解决方法

摘要：解决方案：最后，解决我遇到的这个问题的解决方案是来自以下链接的答案： http://www.voidcn.com/blog/z6491679/article/p-5740396.html。另外还有一个类似的回答的链接： http://www.cnblogs.com/eastmount/p/505 阅读全文

posted @ 2017-09-10 14:39 Donal 阅读(565) 评论(0) 推荐(0)

2017年5月26日

Sense2vec with spaCy and Gensim

摘要：如果你在2015年做过文本分析项目，那么你大概率用的是word2vec模型。Sense2vec是基于word2vec的一个新模型，你可以利用它来获取更详细的、与上下文相关的词向量。本文主要介绍该模型的思想以及一些简单的实现。多义性：word2vec遇到的问题当人们编写字典和辞典时，我们会列出每个阅读全文

posted @ 2017-05-26 09:32 Donal 阅读(549) 评论(0) 推荐(0)

2017年5月25日

python 去停用词

摘要： Try caching the stopwords object, as shown below. Constructing this each time you call the function seems to be the bottleneck. I ran this through the 阅读全文

posted @ 2017-05-25 09:20 Donal 阅读(5651) 评论(0) 推荐(0)

2017年5月24日

nohup command > myout.file 2>&1 &

摘要： nohup command > myout.file 2>&1 & 阅读全文

posted @ 2017-05-24 17:55 Donal 阅读(244) 评论(0) 推荐(0)

NLTK vs SKLearn vs Gensim vs TextBlob vs spaCy

摘要： NLTK is used primarily for general NLP tasks (tokenization, POS tagging, parsing, etc.) Sklearn is used primarily for machine learning (classification 阅读全文

posted @ 2017-05-24 15:13 Donal 阅读(2683) 评论(0) 推荐(0)

Gensim进阶教程：训练word2vec与doc2vec模型

摘要：转自：公子天的技术博客http://www.cnblogs.com/iloveai/ 本篇博客是Gensim的进阶教程，主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现。 Word2vec Word2vec并不是一个模型——它其实是2013年阅读全文

posted @ 2017-05-24 14:49 Donal 阅读(1632) 评论(0) 推荐(1)

Gensim入门教程

摘要：转自：公子天的技术博客 What is Gensim? Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检阅读全文

posted @ 2017-05-24 14:48 Donal 阅读(947) 评论(0) 推荐(0)

使用pdb调试python

摘要：方法：运行 python -m pdb myscript.py(Pdb) 会自动停在第一行，等待调试,这时你可以看看帮助(Pdb) h说明下这几个关键命令<断点设置 (Pdb)b 10 #断点设置在本py的第10行或(Pdb)b ots.py:20 #断点设置到 ots.py第20行删除断点（P 阅读全文

posted @ 2017-05-24 09:52 Donal 阅读(227) 评论(0) 推荐(0)

Donal's Blog

IT人生，记录点点滴滴 https://www.cnblogs.com/Donal

公告