随笔分类 - 机器学习
摘要:先推断再决策。 用推断得到的后验概率P(O|x)=P(x|O)P(O)/P(x)来求P(x'|X)
阅读全文
摘要:杂讯是造成overfitting的原因 定义:由最近的点决定
阅读全文
摘要:1.不要过多的处理:简单的模型(线性模型),资料有规律性, 2.训练和测试来自同一个分布P,不能随机取样,应是同一时间轴上的 措施:训练时,时间轴后面的权重加大 验证:尽可能选时间轴后面的 3.不偷看资料 8年(偷看) vs 6年(没偷看)
阅读全文
摘要:constraint:h10推到h2的条件 也可以是任意8个w为0: 转化为w的长度: 转换成向量形式: 条件可看做原点为圆心,半径为c的圆。
阅读全文
摘要:Overfitting:dimension太大,E(out)过大 影响Overfit的三个因素: deterministic noise:N维度较大,比h的次方大时,有些点无法描述。 措施:
阅读全文
摘要:x^2 → z(特征转化) z推回x的各种情况: 转换方式: 好的z perceptron →好的x perceptron x有Q维时,有d+1维dimesion
阅读全文
摘要:三种模型的损失函数: ys物理意义:分类的正确度 PLA中,ys>0代表分类正确,error为0 error(0,1)的上限: 优化logistic regretion(每一步都要把N带入算) 方法:随机梯度下降 SGD省去了判断是否到谷底,因此在判断是否停下时,只能跑足够多次,不去计算。 OVA多
阅读全文
摘要:logistics hypothesis 将一个范围内的值转化成0/1 三种线性模型 推导:将f换成h 推导最小的Ein(w) 求微分: 循序找到w:(10.3) v为变化方向且长度为1. 坡度大就走的多一些,与坡度正相关。 fixed learning rate purple是红和蓝的比值。 总结
阅读全文
摘要:定义 进行加权求和之后不用进行sign运算 因此,线性回归分析的目的就是找到最接近的线/平面。(红色部分为余数,蓝色部分为h) 计算最小的Ein(w) w为加权系数 E(in)为凹函数,设最低点为W(lin) y(hat)=Xw,X是一个N维的平面。 要让y-y(hat)最小,即做平面span的垂直
阅读全文
摘要:验证g≈f 1.未知x 2.任一x 3.预测是否与结果相同 classification error也可以说时“0/1 error” pointwise:计算每个点上的error再做一个平均,衡量每个点上的error。 两种pointwise 0/1 error用于分类,平方用于判断距离目标y是否过
阅读全文
摘要:Review 当break point k存在时,m(N)就会被N的k-1次方bound住。 条件: VC Dimesion 定义:在VC Dimesion中h可以shattere某N个点,超过VC Dimesion时(即到k)时,就会出现不能shattered的情况。 因此: 可以推出: 注意:当
阅读全文
摘要:k,N,m(H)的关系 此时x2,x3为一组有四种情况,可以被shatter,因此这组数据不能加入。 当break point k=2时,每组两个数据,当N>k时,k很大程度上限制了h的数量即m(H)。 练习题 由B(3,3)推B(4,3): B(4,3)=2a+β B(3,3)=a+β 将E(ou
阅读全文
摘要:review 因此机器学习被拆分为两个重要问题:1.E(out)足够接近E(in)?2.E(in)足够小? 关于h的数量M 当h1和h2很接近时,发生bad事件的概率是重叠的。因此联级相加的结果远大于实际,无法处理M无限大时的情况。 当只有一笔资料时: 只有两种h。 当有两笔资料时: 会有四种h。
阅读全文
摘要:霍夫丁不等式: 当样本N足够大时,μ和v相差很大的可能性很小。(需要合适的N和误差,N越大,μ和v接近的几率越大;且不需要知道μ) 证明了可由小样本的v推出μ。 用D检验h,即x是否与f相同(监督式学习x还会有标签y) 流程 从罐子中取样,得到一个概率P(g与f相同的概率),有两个用途:1.产生资料
阅读全文
摘要:由y分类可分成:二元分析,多类别分析,回归分析,结构分析... 监督学习:知道样本的特征(硬币的重量、面值) 非监督学习:不知道特征,分类与聚类 半监督学习:少部分样本有标签(适用于获得标签较困难的情况) 强化学习(reinforcement learning):基于奖惩机制,找到奖励最多的那个po
阅读全文
摘要:PLA:Perceptron Learning Algorithm PLA的任务就是找到将数据集划分为两个区域的线。 基本模型 也可以叫linear classifiers 注意:上标表示第几个样本,下标表示这个样本的第几个特征 PLA算法流程: 输入:训练数据集{(X1,Y1),(X2,Y2),.
阅读全文

浙公网安备 33010602011771号