数据属性WEKA学习总结

首先声明,我是一个菜鸟。一下文章中现出技术误导情况盖不负责

    1.      Weka理处的数据表格中,一个横行称为一个例实(Instance),竖行代表一个属性(Arrtibute),数据表格称为一个数据集,在weka看来,现呈了属性之间的一种关系(Relation)

    2.      Weka存储数据的格式是ARFF(Attribute-RelationFile Format)文件,这是一种ASCII文本文件。

    3.      Weka的ARFF文件可以分为两部分。第一部分给出了头信息(Head information),包含了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从@Data记标开始,前面的就是数据信息了。

    4.      Weka作为数据发掘,面对的第一个问题常常是我们的数据不是ARFF格式的。幸亏,WEKA还供给了对CSV文件的持支,而种这格式是被很多其他软件所持支的。此外,WEKA还供给了通过JDBC问访数据库的功能。

    5.      要需注意的是,matlab给出的csv文件常常没有属性名(Excel 给出的也可能没有)。而WEKA必须从CSV文件的第一行读取属性名,否则就会把第一行的各属性值读成变量名。因此我们对于matlab给出的csv文件要需用UltraEdit打开,手工添加一行属性名。

    6.      Weka供给了命令将CSV文件转换成arff文件。

    7.      Weka GUI根据不同功能分为8个界面:

    (1)    区域1的几个选项卡用来切换不同的发掘任务面板。

    (2)    区域2是一些用常钮按。包含打开数据,存保及编辑功能。

    (3)    选择某个Filter,可以现实筛选数据或者对数据停止某种变换。

    (4)    区域4展示了数据集的一些基本情况。

    (5)    列出了数据集的有所属性。

    (6)    区域6中有关于这个属性的择要,注意对于值数属性和类分属性,择要的式方是不一样的。

    (7)    区域7中是区域5属性的直方图。

    (8)    区域8是状态栏,可以查看Log义判断否是有错。右侧的weka鸟在动的话说明weka正在执行发掘任务。右键点击状态栏可以执行java存内垃圾回收。

    8.      常通对于数据发掘任务说来,ID这样的信息是无用的。

    9.      Weka把类分(Classification)和回归(Regression)都放在“Classify”选项卡中。

    每日一道理
试试看——不是像企鹅那样静静的站在海边,翘首企盼机会的来临,而是如苍鹰一般不停的翻飞盘旋,执著的寻求。 试试看——不是面对峰回路转、杂草丛生的前途枉自嗟叹,而是披荆斩棘,举步探索。 试试看——不是拘泥于命运的禁锢,听凭命运的摆布,而是奋力敲击其神秘的门扉,使之洞开一个新的天地。微笑着,去唱生活的歌谣。

    10.  在weka中,待测预的标目(输出)被称为Class属性,这应该是来自类分任务的“类”。一般的,若Class属性是类分型时我们的任务才叫类分,Class属性是值数型时我们的任务叫回归。

    11.  所谓回归分析法,是在握掌量大视察数据的基础上,利用数理统计方法立建因变量和自变量之间的回归关系函数表达式(称回归方程)。

    12.  在回归分析中,又据依描述自变量和因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性分析。常通线性回归分析法是最基本的分析方法,碰到非线性回归问题可以借助数学段手化为线性回归问题理处。

    13.  一元线性回归是指事物开展的自变量和因变量之间是单要素的单简线性关系,它的型模可以示表为: y=a+bx

    14.  多元线性回归是指一个因变量和多个自变量之间的线性关系,型模一般情势为:

    Y=a+b1x1+b2x2+…+bnxn

    15.  为了保障生成的型模的准确性而不至于现出合拟的景象,我们有须要采取10折叉交验证来选择和评估型模。

    16.  10 折叉交验证:英文名叫做10-fold corss –validation,用来测试法算的准确性。是用常的测试方法。将数据集成分10份,流轮将其中9份作为练习数据,1份作为测试数据,停止实验。每次实验都市失掉应相的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对法算准确读的计估,一般还要需停止多次10折叉交验证。

    17.  数据发掘中类分与类聚最质本的别区:

    单简的说:类分是“督监学习”,先事道知有那些别类可以分。类聚—是“无督监学习”,先事不道知要成分哪些类。

    数据类分是指分析数据库中的一组象对,找出去同共属性。然后根据类分型模,把他们划分为不同的别类。类分数据首先根据练习数据立建类分型模,然后根据这些类分描述类分数据中的测试数据或生产更当恰的描述。

    类聚是指数据库中的数据可以划分为一些列有意思的子集,即类。在统一别类中,集体之间的离距较小,而不同别类上的集体之间的离距偏大。类聚分析常通称为“无督监的学习”

    18.  在停止类聚运算时,置设seed是置设一个机随种子,依此生产一个机随数,用来失掉K均值法算中第一次给出的K个簇中央的位置。

文章结束给大家分享下程序员的一些笑话语录: 祝大家在以后的日子里. 男生象Oracle般健壮; 女生象win7般漂亮; 桃花运象IE中毒般频繁; 钱包如Gmail容量般壮大, 升职速度赶上微软打补丁 , 追女朋友像木马一样猖獗, 生活像重装电脑后一样幸福, 写程序敲代码和聊天一样有**。

posted @ 2013-05-02 19:38  xinyuyuanm  阅读(1085)  评论(0编辑  收藏  举报