SAS笔记121107
data过程的一个误区是以为数据集是一起导入的。实际上数据是一个观测一个观测导入的。这期间会产生一个或多个数据指针,也可能产生一个或多个PDV。但data过程在涉及set/merge等语句时本身相当于一个循环过程。因此不谨慎的代码很容易造成冗余的读取操作,甚至可能死循环。
set语句
格式
set<sas-data-set(s)<(data-set-option(s))>><options>;
其中sas-data-set(s)是1个到50个的数据集,注意不同于数据集选项,options不需要括号。
数据集选项有
keep=变量(组)指定读入哪些变量到PDV
drop=变量(组)指定不读入哪些变量到PDV
注:用选项读入比用语句读入效率要高得多,但是一般书很少注意这一点,这导致人们写出大量的低效代码,例如
data test;
set source.data;
keep name sex;
run;
上面这种代码在很多SAS教材里很常见,但是在大数据中这种代码是不被推荐的,因为它在输入时将整个source.data都读入了PDV,在输出的时候才删除,导致了大量的冗余操作。drop选项同理。上述代码实际上等价于
data test(keep=name sex);
set source.data;
run;
可以看到PDV在每次读入一个观测的时候将读入所有的变量。
rename=表达式
为变量重命名。唯一需要注意的是二级括号。
set sashelp.class(rename=(name=name_new sex=sex_new));
where=表达式
和rename一样,要用到二级括号
set sashelp.class(keep=sex where=(sex='M')
上述四个表达式选项都可以用sas sql实现,但是它们的效率远远胜过sql
in=变量
创建标识变量,标识当前观测是否属于某数据集
data myin;
set setone(in=ina) settwo(in=inb);
if ina=1 then flag=1;else flag=0;
run;
上述代码将setone和settwo纵向合并成一个,并生成一个新变量flag,表明观测来自于原来的哪个变量。in=选项的目的通常是为了对不同输入数据执行不同条件操作。
firstobs=常数和obs=常数选项
set sashelp.class(firstobs=3 obs=5);
读取class的第三到第五条观测并输出
注:我们发现获取一个数据集的子数据集的定位最快的方式应该是
set sashelp.class(firstobs=3 obs=6 keep=name age sex);
这样不会引起冗余读入。
以下是非数据集选项,即不带括号的options
nobs=变量,将数据集观测数传给临时变量(非输出变量)
data n_obs;
if 0 then set sashelp.class nobs=total_obs;
total=total_obs;
output;
stop;
run;
因为头文件信息在编译后就产生,这样一来if语句虽然不进行任何读入,但是nobs在编译时已经把观测数传给了total_obs.上述语句几乎是获得数据集观测数的最快的方式。
point=变量
data point1;
n=3;
set sashelp.class point=n;
output;
stop;
run;
获取第三条观测。注意不能写成point=3,因为point后面只能跟变量,也可以用point来获取一连串值,使用do循环:
data point2;
do n=3 to 11;
set sashelp.class point=n;
output;
end;
stop;
run;
注意stop语句绝对不能省略,否则进入死循环。
一个最实用的程序是快速获得最后一条观测
data mylastobs;
set sashelp.class nobs=last point=last;
output;
stop;
run;
程序在编译时nobs=观测总数就会传送给last变量,接下来程序读入class进入PDV,数据指针直接获取last值并读取最后一条数据,输出并停止Data步。
上述代码比朱世武教材快很多,朱书中是这样获取最后数据的
data zhu;
set sashelp.class end=obs_last;
if obs_last=1;
run;
这样的代码要读入所有数据直到发现是最后末尾才输出,显然前面nobs-1条读取操作都是没有用的。
end=选项就是是否结尾的标志
set的合并:
data conbine;
set set1 set2(obs=10);
run;
分配一个指针,生成一个PDV,顺序读入set1 set2,可以用in=选项验证。
data d1 d2;
set sashelp.class;
if _n_ le 10 then output d1;
else ouput d2;
run;
通常还有用的操作是set a;set b;操作。产生两个数据指针,一个PDV,与set a b不同的是,这是逐条依次读入PDV的,除非发现其中一条指针已经到达数据集结尾。一般要求a,b的读取数相同才使用这样的语句。
浙公网安备 33010602011771号