随笔分类 -  文本挖掘

摘要:直接在jieba中设置并行并不能真正的并行。所以 用joblib进行并行分词。 源文件有4列 阅读全文
posted @ 2018-04-28 14:52 乐乐章 阅读(410) 评论(0) 推荐(0)
摘要:github: https://github.com/zle1992/2016-ccf-data-mining-competition 阅读全文
posted @ 2017-03-20 21:13 乐乐章 阅读(1009) 评论(0) 推荐(0)
摘要:1 问题描述 LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。此外,一篇文档可以包含多 阅读全文
posted @ 2017-01-07 21:36 乐乐章 阅读(969) 评论(0) 推荐(0)
摘要:问题 实际处理和解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。这种情况下,如果还是直接使用传统的方式肯定行不通,比如当你想把数据load到内存中转成numpy数组,你会发现要么创建不了那么大的numpy矩阵,要么直接加载 阅读全文
posted @ 2016-12-06 16:36 乐乐章 阅读(10746) 评论(4) 推荐(0)
摘要:目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 数据挖掘通常包括 阅读全文
posted @ 2016-11-16 16:48 乐乐章 阅读(196) 评论(1) 推荐(0)
摘要:Using the numpy.hstack will create an array with two sparse matrix objects. scipy.sparse.bmat 归一化 norm : ‘l1’, ‘l2’, or ‘max’, optional (‘l2’ by defau 阅读全文
posted @ 2016-11-09 12:58 乐乐章 阅读(2904) 评论(0) 推荐(1)
摘要:文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Term f 阅读全文
posted @ 2016-11-08 11:30 乐乐章 阅读(1371) 评论(0) 推荐(0)
摘要:1 GridSearch 2search 3 阅读全文
posted @ 2016-11-03 16:39 乐乐章 阅读(934) 评论(0) 推荐(0)
摘要:组合分类器: 组合分类器有4种方法: (1)通过处理训练数据集。如baging boosting (2)通过处理输入特征。如 Random forest (3)通过处理类标号。error_correcting output coding (4)通过处理学习算法。如voting 1 bagging 2 阅读全文
posted @ 2016-11-03 16:28 乐乐章 阅读(1331) 评论(0) 推荐(0)
摘要:机器学习算法的空间、时间复杂度依赖于输入数据的规模,维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法。维度规约可以分为两类: 特征选择(feature selection),从原始的d维空间中,选择为我们提供信息最多的k个维(这k个维属于原始空间的子集 阅读全文
posted @ 2016-11-01 11:13 乐乐章 阅读(846) 评论(0) 推荐(0)
摘要:提要:处理excel数据时有时需要把单元格的内容拆分为两列,可能方便外部软件的链接,可能使数据显示更明晰等等,有人说直接剪切加粘贴不就可以了吗,但是有时数据过多,这样处理很不效率,网上搜索的方法说插入某某函数可以实现,但是可能显得比较复杂,其实excel软件本身就带有“分列”的功能。 举例:如EXC 阅读全文
posted @ 2016-10-23 10:57 乐乐章 阅读(2120) 评论(0) 推荐(0)
摘要:代码文件主要针对Matlab进行说明,但个人仍觉得讲解的支持向量机内容非常棒,可以做为理解这一统计方法的辅助资料; LibSVM是台湾林智仁(Chih-Jen Lin)教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活, 阅读全文
posted @ 2016-10-23 10:27 乐乐章 阅读(327) 评论(0) 推荐(0)
摘要:首先介绍一下 libSVM的数据格式 Label 1:value 2:value …. Label:是类别的标识,比如上节train.model中提到的1 -1,你可以自己随意定,比如-10,0,15。当然,如果是回归,这是目标值,就要实事求是了。 Value:就是要训练的数据,从分类的角度来说就是 阅读全文
posted @ 2016-10-23 10:24 乐乐章 阅读(2912) 评论(0) 推荐(0)
摘要:关于SVM的基础理论知识,可以google这篇文章《SVM的八股简介》,讲解得生动有趣,是入门的极好教材。作为拿来主义者,我更关心怎么用SVM,因此瞄上了台湾林智仁教授提供的libSVM。我把自己的使用过程记录下来,感觉按照下面的步骤,傻瓜应该也可以用SVM了。 1. 相关程序的下载、安装 总共要下 阅读全文
posted @ 2016-10-23 10:21 乐乐章 阅读(500) 评论(0) 推荐(0)
摘要:Feature extraction - sklearn文本特征提取 http://blog.csdn.net/pipisorry/article/details/41957763 http://scikit-learn.org/stable/modules/feature_extraction.h 阅读全文
posted @ 2016-10-21 17:59 乐乐章 阅读(387) 评论(0) 推荐(0)