2017 年 11月 22 日随笔档案 - banlucainiao

摘要：解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权，比如利用采样与加权等方法。为了方便起见，我们把数据集中样本较多的那一类称为“大众类”，样本较少的那一类称为“小众类”。解决方式分为： . 一、相关方法总结 1、采样采样方法是... 阅读全文

posted @ 2017-11-22 11:51 banlucainiao 阅读(130) 评论(0) 推荐(0)

摘要： FastText是Facebook开发的一款快速文本分类器，提供简单而高效的文本分类和表征学习的方法，不过这个项目其实是有两部分组成的，一部分是这篇文章介绍的 fastText 文本分类（paper：A. Joulin, E. Grave, P. Boj... 阅读全文

posted @ 2017-11-22 11:46 banlucainiao 阅读(128) 评论(0) 推荐(0)

摘要：来自于github一位博主的整理，好多都没有看到过+还有我一直期待去研究的。 github：https://github.com/MaxwellRebo/awesome-2vec 1、word2vec 耳熟能详的NLP向量化模型。 Pape... 阅读全文

posted @ 2017-11-22 11:16 banlucainiao 阅读(85) 评论(0) 推荐(0)

摘要： GitHub十大机器学习项目在Github上排名前10位的机器学习项目包括许多库，框架和教育资源。看看别人都在用的工具，和学习的资源。作者Matthew Mayo, KDnuggets. 开源工具在数据科学工作流程中越来越重要. 最近K... 阅读全文

posted @ 2017-11-22 10:55 banlucainiao 阅读(86) 评论(0) 推荐(0)