上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 36 下一页
摘要: Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python... 阅读全文
posted @ 2017-11-28 10:52 banlucainiao 阅读(34) 评论(0) 推荐(0)
摘要: 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。Pattern:Pattern... 阅读全文
posted @ 2017-11-28 10:29 banlucainiao 阅读(75) 评论(0) 推荐(0)
摘要: 解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。 解决方式分为: . 一、相关方法总结 1、采样 采样方法是... 阅读全文
posted @ 2017-11-22 11:51 banlucainiao 阅读(130) 评论(0) 推荐(0)
摘要: FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Boj... 阅读全文
posted @ 2017-11-22 11:46 banlucainiao 阅读(128) 评论(0) 推荐(0)
摘要: 来自于github一位博主的整理,好多都没有看到过+还有我一直期待去研究的。 github:https://github.com/MaxwellRebo/awesome-2vec 1、word2vec 耳熟能详的NLP向量化模型。 Pape... 阅读全文
posted @ 2017-11-22 11:16 banlucainiao 阅读(85) 评论(0) 推荐(0)
摘要: GitHub十大机器学习项目 在Github上排名前10位的机器学习项目包括许多库,框架和教育资源。看看别人都在用的工具,和学习的资源。 作者Matthew Mayo, KDnuggets. 开源工具在数据科学工作流程中越来越重要. 最近K... 阅读全文
posted @ 2017-11-22 10:55 banlucainiao 阅读(86) 评论(0) 推荐(0)
摘要: N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一... 阅读全文
posted @ 2017-11-19 15:42 banlucainiao 阅读(265) 评论(0) 推荐(0)
摘要: 对于一个预测问题,同时有多种可用的模型,每种模型有多种可用的参数。如何选择一个最合适的模型? 总题过程分为2个部分: 1.对于一个模型,如何评估该模型在特定问题上的好坏? 2.选择了最好的模型后... 阅读全文
posted @ 2017-11-19 15:38 banlucainiao 阅读(119) 评论(0) 推荐(0)
摘要: 之前闲着, 利用Github搭了个免费的个人主页。 (colin1994.xyz) 这里是我的一个简单主页,有兴趣的朋友可以访问看看。 ********** 先不公开了 ********** 今天到家了, 趁着闲着, 写一篇相关教... 阅读全文
posted @ 2017-11-15 15:30 banlucainiao 阅读(32) 评论(0) 推荐(0)
摘要: 电脑的键盘一般都是美式键盘,其键数大都是101或104个。107键盘又称为win98键盘,比104键多了睡眠、唤醒、开机等电源管理键,这3个键大部分位于键盘的右上方。 一般认为:键盘上有四个键区,他们是:功能键区、打... 阅读全文
posted @ 2017-11-15 11:09 banlucainiao 阅读(878) 评论(0) 推荐(0)
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 36 下一页