Arndata
数据质量依赖数据清洗的工作,数据结果依赖数据算法的效能。

导航

 

2012年6月2日

摘要: 1、SAS过程步的一般形式为:PROC 过程名称 DATA=数据库名称.数据集名称 基本选项; 过程语句1 选项; 过程语句2 选项;RUN;2、过程步常用语句在过程步的语句格式中含有"过程语句/选项",下面介绍几个常见的过程语句。(1) VAR 语句用来指定变量名称,其语句格式为:VAR 变量名称1 变量名称2 ... 变量名称k;例如VAR x1 x2 ... x8;(2) BY 语句和 CLASS 语句BY 语句在过程中一般用来指定一个或几个分类变量,根据这些分类变量值把观测分组,然后对每一组观测分别进行本过程指定的分析,其语句格式为:BY变量名称1 ... 阅读全文
posted @ 2012-06-02 12:07 Arndata 阅读(8614) 评论(0) 推荐(0)
 
摘要: 1、用编程的方法建立指定数据库LIBNAME 数据库名称 "电脑硬盘路径";取消指定的数据库LIBNAME 数据库名称 CLEAR;如果一个数据库指定多个电脑硬盘文件夹的位置(存储到多个位置),语句格式如下LIBNAME 数据库名称 ("电脑硬盘路径1""电脑硬盘路径2");2、从数据库到数据集,有两种方式输入数据建立SAS数据集:一是将数据排列在变量名单之后;二是制定一个外部数据文件供读取。第一种方式的语句格式为:DATA 数据集名称; /*这个名称可以是事先不存在的,临时命名的一个数据集名称*/ INPUT 变量名称1变量名称2变 阅读全文
posted @ 2012-06-02 11:13 Arndata 阅读(1222) 评论(0) 推荐(0)
 

2012年5月28日

摘要: 为区分过程名称的拼写,故意部分小写,以便识别和记忆。基本SAS程序代码结构:---------PROC MODE data=Arndata.moddat; /* 命令的解释 */ var y x1-x6; /* 命令的解释 */ model y = x1-x6;run;------------------------------------------正态性检验PROC UNIvariate---------PROC UNIvariatedata=Arndata.unidat; var x1;run;---------... 阅读全文
posted @ 2012-05-28 10:24 Arndata 阅读(28240) 评论(0) 推荐(0)
 

2012年5月26日

摘要: 程序代码PROC CLUSTER data=Arndata.drink method=ave outtree=drink_OUT; /* method:指定聚类距离的计算方法, outtree:将分析结果输出,并制定输出到的数据集名称*/ var calorie caffeine sodium price;run;输出结果SAS 系统 2012年05月26日 星期六 下午10时43分25秒 1 The CLUSTER Procedure ... 阅读全文
posted @ 2012-05-26 22:58 Arndata 阅读(5801) 评论(0) 推荐(0)
 
摘要: 基于贝叶斯判别的房地产信用评级研究本文首先采用Logistic回归法筛选出4个财务指标作为评价函数的计量参数,再构造Bayes判别算法建立信用评估模型,将其应用于某些房地产企业的实际数据分析,并评估其评判效果。程序代码data LOGIT;input g x1-x10 @@ ; /*输入数据和对应的变量名称,指定数据是按顺序对应变量(@@)*/cards;1 76.02 112.16 52.65 16.24 4.17 88.54 -1.93 98.07 -58.63 -1.931 50.15 53.55 6.18 5.81 0... 阅读全文
posted @ 2012-05-26 17:59 Arndata 阅读(7973) 评论(0) 推荐(1)
 

2012年5月23日

摘要: -----------------------------2012may23th 2100--------------导入外部数据 xls txtproc import datafile="D:\sasdata\csdn\lidata\DATA.txt"out=Arndata.linData;run;-------------------------------------------Bayes判别分析data ex;input v1 v2 v3 v4 g @ @ ;cards;-58.63 4.17 16.24 52.65 118.21 .77 5.81 6.18 13. 阅读全文
posted @ 2012-05-23 21:52 Arndata 阅读(337) 评论(0) 推荐(0)
 

2012年5月20日

摘要: 判别分析 的SPSS操作流程1.Discriminant Analysis判别分析主对话框 如图 1-1 所示图 1-1 Discriminant Analysis 主对话框(1)选择分类变量及其范围在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量),按上面的一个向右的箭头按钮,使该变量名移到右面的Grouping Variable 框中。此时矩形框下面的Define Range 按钮加亮,按该按钮屏幕显示一个小对话框如图1-2 所示,供指定该分类变量的数值范围。图 1-2 Define Range 对话框在Minimum 框中输入该分类变量的最小值在Maximu. 阅读全文
posted @ 2012-05-20 23:24 Arndata 阅读(29137) 评论(0) 推荐(4)
 

2012年5月15日

摘要: -- 现代外国统计学优秀著作译丛 -- 系列 --非线性回归分析及其应用探索性数据分析金融与经济周期预测寿命数据中的统计模型与方法随机过程 Ross非参数统计 - 吴喜之数理统计:基本概念及选题实用非参数统计 - 崔恒建译数理统计学简史 - 陈希孺统计学:从数据到结论 - 吴喜之SAS统计分析从入门到精通统计模拟 - 王兆军译时间序列分析:预测与控制金融数学 - 叶中行译非参数统计讲义 - 孙山泽线性代数(数学专业用) - 李尚志统计模型:理论和实践 - 吴喜之译实分析习题集PHP+MYSQL基础教程Python基础教程英语词根词典考研词汇速记指南专家指点系列 - 表扬的技巧简约至上卡片分类: 阅读全文
posted @ 2012-05-15 22:47 Arndata 阅读(505) 评论(0) 推荐(0)
 

2012年5月13日

摘要: 书上都在说数据整理,开始数据整理到底该怎么做呢?首先是问题的导向,你的研究问题决定了你要整理的指标是什么,指标数字化就是变量,你要确定这些变量的类型。其次是方法的导向,你的研究方法决定了你的变量和数据该是如何的对应起来整理,符合某个条件的数据是否该分组,还是该独立编制为一个变量。剩下的才是那些异常值的处理,一般是对某个变量先排序,然后去掉首尾两端的不合逻辑的数据记录;然后对其他的变量也做排序,同样去掉首尾两端的不合逻辑的数据。然后是分组的考虑,不管是连续值的区间处理,分层处理,还是分类型数据的分组group处理,最好不要各组频数的数量级差的太多。因为差太多就会导致不稳定的结论,这样的结果可靠性 阅读全文
posted @ 2012-05-13 23:16 Arndata 阅读(406) 评论(0) 推荐(0)
 

2012年5月12日

摘要: 当你遇到感兴趣的问题的时候,你会找人来讨论这个问题的普通答案,文艺答案,2B答案。普通答案仅仅是这个特殊情形的答案;文艺答案可以是上升到更一般化,拓展范围更大的规律性总结;2B答案是没有得到问题解决的答案或让人更加迷惑的答案。有人说,当在实际中遇到一个问题,我们第一步是把这个实际问题用理论来描述成研究课题。然后下一步是什么呢?常见的做法是1. 考虑与这个研究课题(会被具体化到研究问题)相关的指标;2. 然后收集这些指标的数据,整理成变量和个案集;(前两个steps可能是需要跟甲方一起来做的环节)3. 再是数据预处理,这是很重要的一步,不经过预处理(清洗异常极端值,无量纲标准化等)的数据会让结果 阅读全文
posted @ 2012-05-12 09:38 Arndata 阅读(391) 评论(0) 推荐(0)