会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
rongyux
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2016年4月29日
pdfminer API介绍:pdf网页爬虫
摘要: 安装 pip install pdfminer 爬取数据是数据分析项目的第一个阶段,有的加密成pdf格式的文件,下载后需要解析,使用pdfminer工具。 先介绍一下什么是pdfminer 下面是官方一段英文介绍: PDFMiner is a tool for extracting informat
阅读全文
posted @ 2016-04-29 11:36 rongyux
阅读(4321)
评论(0)
推荐(0)
2016年4月26日
机器学习工作流程从数据清洗到模型调优
摘要: 第1章 概述 1.1 机器学习技术路线图 第2章 数据清洗 2.1 处理缺失值 工具h2o.ai可以显示数据每个属性的缺失值情况,如下图: 2.2 数据集的格式 工具Weka要求数据是arff的,但也支持csv文件,在weka中arff文件有优势,可以设置属性的类型,其中weka有四种基本类型(nu
阅读全文
posted @ 2016-04-26 10:46 rongyux
阅读(1098)
评论(0)
推荐(0)
2016年4月18日
数据挖掘:python数据清洗cvs里面带中文字符
摘要: 数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可;利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index。 python代码如下:(data数据时csv格式) 上例是真实的数据处理,有两百列属
阅读全文
posted @ 2016-04-18 16:22 rongyux
阅读(2246)
评论(0)
推荐(1)
2016年4月17日
《疯狂java-突破程序员基本功的16课 》笔记总结
摘要: 本人最近读完《疯狂java-突破程序员基本功的16课 》读完后,感觉对java基础又有了新的认识,在这里总结一下:一、数组与内存控制 1.1 数组初始化 java语言的数组是静态的,即数组初始化之后,长度不可以变(区别,JavaScript数组可变,是动态的)。 初始化分两种:静态初始化,初始化时由
阅读全文
posted @ 2016-04-17 19:24 rongyux
阅读(377)
评论(0)
推荐(0)
2016年4月15日
机器学习:weka中添加自己的分类和聚类算法
摘要: 不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法。 一 添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Classifier的子类;下面用比较简单的zeroR举例说明; 2 复写接口 buildClassif
阅读全文
posted @ 2016-04-15 20:28 rongyux
阅读(6170)
评论(0)
推荐(0)
2016年4月14日
机器学习:遗传算法原理及实例解析[阅读笔记]
摘要: 在平时的研究之余,希望每天晚上闲下来的时候,都学习一个机器学习算法,今天看到几篇不错的遗传算法的文章,在这里总结一下。 1 神经网络基本原理 图1. 人工神经元模型 图中x1~xn是从其他神经元传来的输入信号,wij表示表示从神经元j到神经元i的连接权值,θ表示一个阈值 ( threshold ),
阅读全文
posted @ 2016-04-14 21:29 rongyux
阅读(3235)
评论(0)
推荐(0)
2016年4月13日
机器学习:深入朴素贝叶斯分类算法原理及案例[阅读笔记]
摘要: 朴素贝叶斯之所以叫朴素,是因为它假定了所有的属性之间是独立的。下面我们就分别说说,属性值是离散和连续值的朴素贝叶斯对问题的求解方法吧。 1 贝叶斯定理 贝叶斯定理最大的用处是在很多情况下,我们需要求的概率是后验概率P(B|A),很难直接求解,但是他的先验概率P(A|B)却很容易求解,这时候贝叶斯定理
阅读全文
posted @ 2016-04-13 20:53 rongyux
阅读(4971)
评论(1)
推荐(0)
机器学习:LibSVM与weka在eclipse中的使用
摘要: LibSVM是weka3.5以后的版本新加的功能,使用这个算法必须自己下载jar包,配置进项目; LibSVM在weka可视化界面的使用,很多人写过,但在clipse下的调用资料却不多,试了很多都不能完成,报错 libsvm classes not in CLASSPATH LibSVM 下载地址:
阅读全文
posted @ 2016-04-13 15:46 rongyux
阅读(1418)
评论(0)
推荐(0)
机器学习:weka中Evaluation类源码解析及输出AUC及交叉验证介绍
摘要: 在机器学习分类结果的评估中,ROC曲线下的面积AOC是一个非常重要的指标。下面是调用weka类,输出AOC的源码: 接着说一下交叉验证; 如果没有分开训练集和测试集,可以使用Cross Validation方法,Evaluation中crossValidateModel方法的四个参数分别为,第一个是
阅读全文
posted @ 2016-04-13 10:38 rongyux
阅读(2502)
评论(0)
推荐(0)
2016年4月12日
数据挖掘:关联规则的apriori算法在weka的源码分析
摘要: 相对于机器学习,关联规则的apriori算法更偏向于数据挖掘。 1) 测试文档中调用weka的关联规则apriori算法,如下 步骤 1 读取数据集data,并提取样本集instances 2 离散化属性Discretize 3 创建Apriori 关联规则模型 4 输出大频率项集和关联规则集 2)
阅读全文
posted @ 2016-04-12 20:24 rongyux
阅读(3803)
评论(0)
推荐(3)
上一页
1
2
3
4
5
6
7
8
下一页
公告