一般手工生成的数据集(artificial datasets),通常用于实验部分最开始的演示和示意,用于对结果的一种精确计算和量化分析。

1. Swiss/Helix/Twinpeaks/Broken Swiss(随机化数据集)



既然是某种随机化生成的数据集,自然依赖某种特定类型的随机变量。这里我们取采样自服从 [0, 1] 区间上的均匀分布(uniform distribution)的随机变量的随机数值 pi,qi

  • 对于 Swiss roll 数据集的生成,其三维上的数据点 xi=[ticos(ti),tisin(ti),30qi],其中 ti=3π2(1+2pi)

    t = (3*pi)/2*(1+2*rand(n, 1));
    height = 30*rand(n, 1);
    X = [t.*cos(t) height t.*sin(t)];
    if ~exit('noise', var),
        noise = 0.05;
    end
    X = X + noise * randn(n, 3);

references

posted on 2016-11-30 11:50  未雨愁眸  阅读(584)  评论(0编辑  收藏  举报