随笔分类 -  机器学习

摘要:先推断再决策。 用推断得到的后验概率P(O|x)=P(x|O)P(O)/P(x)来求P(x'|X) 阅读全文
posted @ 2020-12-08 21:00 吴莫愁258 阅读(91) 评论(0) 推荐(0)
摘要:杂讯是造成overfitting的原因 定义:由最近的点决定 阅读全文
posted @ 2020-10-04 20:25 吴莫愁258 阅读(94) 评论(0) 推荐(0)
摘要:杂讯是造成overfitting的原因 阅读全文
posted @ 2020-10-03 22:24 吴莫愁258 阅读(101) 评论(0) 推荐(0)
摘要:1.不要过多的处理:简单的模型(线性模型),资料有规律性, 2.训练和测试来自同一个分布P,不能随机取样,应是同一时间轴上的 措施:训练时,时间轴后面的权重加大 验证:尽可能选时间轴后面的 3.不偷看资料 8年(偷看) vs 6年(没偷看) 阅读全文
posted @ 2020-10-03 21:41 吴莫愁258 阅读(401) 评论(0) 推荐(0)
摘要:constraint:h10推到h2的条件 也可以是任意8个w为0: 转化为w的长度: 转换成向量形式: 条件可看做原点为圆心,半径为c的圆。 阅读全文
posted @ 2020-09-30 16:47 吴莫愁258 阅读(113) 评论(0) 推荐(0)
摘要:Overfitting:dimension太大,E(out)过大 影响Overfit的三个因素: deterministic noise:N维度较大,比h的次方大时,有些点无法描述。 措施: 阅读全文
posted @ 2020-09-28 22:35 吴莫愁258 阅读(192) 评论(0) 推荐(0)
摘要:x^2 → z(特征转化) z推回x的各种情况: 转换方式: 好的z perceptron →好的x perceptron x有Q维时,有d+1维dimesion 阅读全文
posted @ 2020-09-28 17:33 吴莫愁258 阅读(301) 评论(0) 推荐(0)
摘要:三种模型的损失函数: ys物理意义:分类的正确度 PLA中,ys>0代表分类正确,error为0 error(0,1)的上限: 优化logistic regretion(每一步都要把N带入算) 方法:随机梯度下降 SGD省去了判断是否到谷底,因此在判断是否停下时,只能跑足够多次,不去计算。 OVA多 阅读全文
posted @ 2020-09-28 16:51 吴莫愁258 阅读(297) 评论(0) 推荐(0)
摘要:logistics hypothesis 将一个范围内的值转化成0/1 三种线性模型 推导:将f换成h 推导最小的Ein(w) 求微分: 循序找到w:(10.3) v为变化方向且长度为1. 坡度大就走的多一些,与坡度正相关。 fixed learning rate purple是红和蓝的比值。 总结 阅读全文
posted @ 2020-08-30 17:03 吴莫愁258 阅读(139) 评论(0) 推荐(0)
摘要:定义 进行加权求和之后不用进行sign运算 因此,线性回归分析的目的就是找到最接近的线/平面。(红色部分为余数,蓝色部分为h) 计算最小的Ein(w) w为加权系数 E(in)为凹函数,设最低点为W(lin) y(hat)=Xw,X是一个N维的平面。 要让y-y(hat)最小,即做平面span的垂直 阅读全文
posted @ 2020-08-28 20:16 吴莫愁258 阅读(175) 评论(0) 推荐(0)
摘要:验证g≈f 1.未知x 2.任一x 3.预测是否与结果相同 classification error也可以说时“0/1 error” pointwise:计算每个点上的error再做一个平均,衡量每个点上的error。 两种pointwise 0/1 error用于分类,平方用于判断距离目标y是否过 阅读全文
posted @ 2020-08-27 15:43 吴莫愁258 阅读(110) 评论(0) 推荐(0)
摘要:Review 当break point k存在时,m(N)就会被N的k-1次方bound住。 条件: VC Dimesion 定义:在VC Dimesion中h可以shattere某N个点,超过VC Dimesion时(即到k)时,就会出现不能shattered的情况。 因此: 可以推出: 注意:当 阅读全文
posted @ 2020-08-25 14:06 吴莫愁258 阅读(181) 评论(0) 推荐(0)
摘要:k,N,m(H)的关系 此时x2,x3为一组有四种情况,可以被shatter,因此这组数据不能加入。 当break point k=2时,每组两个数据,当N>k时,k很大程度上限制了h的数量即m(H)。 练习题 由B(3,3)推B(4,3): B(4,3)=2a+β B(3,3)=a+β 将E(ou 阅读全文
posted @ 2020-08-24 15:58 吴莫愁258 阅读(90) 评论(0) 推荐(0)
摘要:review 因此机器学习被拆分为两个重要问题:1.E(out)足够接近E(in)?2.E(in)足够小? 关于h的数量M 当h1和h2很接近时,发生bad事件的概率是重叠的。因此联级相加的结果远大于实际,无法处理M无限大时的情况。 当只有一笔资料时: 只有两种h。 当有两笔资料时: 会有四种h。 阅读全文
posted @ 2020-08-23 15:01 吴莫愁258 阅读(495) 评论(0) 推荐(0)
摘要:霍夫丁不等式: 当样本N足够大时,μ和v相差很大的可能性很小。(需要合适的N和误差,N越大,μ和v接近的几率越大;且不需要知道μ) 证明了可由小样本的v推出μ。 用D检验h,即x是否与f相同(监督式学习x还会有标签y) 流程 从罐子中取样,得到一个概率P(g与f相同的概率),有两个用途:1.产生资料 阅读全文
posted @ 2020-08-22 21:39 吴莫愁258 阅读(192) 评论(0) 推荐(0)
摘要:由y分类可分成:二元分析,多类别分析,回归分析,结构分析... 监督学习:知道样本的特征(硬币的重量、面值) 非监督学习:不知道特征,分类与聚类 半监督学习:少部分样本有标签(适用于获得标签较困难的情况) 强化学习(reinforcement learning):基于奖惩机制,找到奖励最多的那个po 阅读全文
posted @ 2020-08-15 23:45 吴莫愁258 阅读(303) 评论(0) 推荐(0)
摘要:PLA:Perceptron Learning Algorithm PLA的任务就是找到将数据集划分为两个区域的线。 基本模型 也可以叫linear classifiers 注意:上标表示第几个样本,下标表示这个样本的第几个特征 PLA算法流程: 输入:训练数据集{(X1,Y1),(X2,Y2),. 阅读全文
posted @ 2020-08-14 23:17 吴莫愁258 阅读(494) 评论(0) 推荐(0)