摘要: photo OCR应用1.介绍:光学字符识别,图片文字转为可编辑的文字。2.步骤:(使用管道pipeline)识别出文本区域字符分割单个字符识别3.识别出文本区域收集长方形的图形作为训练集,表示是否是文字区域,训练算法。在图片中使用长方形(不同大小的)滑动窗口进行扫描,对每个长方形使用训练的算法判读... 阅读全文
posted @ 2014-12-04 23:45 baoff 阅读(1257) 评论(0) 推荐(0) 编辑
摘要: 第十章、大型数据集的学习1.很多时候数据是越大越好,所以处理大量数据的时候就会很费时,但是在确定数据的时候,一定要先想一下,如果只使用部分数据(不是很大),就能替代整体数据,那么还是选择部分数据。或者这是一个欠拟合的问题,而需要先修改。2.随机梯度下降stochastic gradient desc... 阅读全文
posted @ 2014-12-04 11:26 baoff 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 第九章(2)、推荐系统1.基于内容推荐content based recommendations根据内容给产品一个度(电影的浪漫度,喜剧度,动作度)使用线性回归方法(将除以m删掉了):缺点:这种方法需要根据内容给产品一个度值,很花时间,只能用于容易确定度值的问题。反过来求:依然使用上面的例子,现在给... 阅读全文
posted @ 2014-12-02 20:32 baoff 阅读(646) 评论(0) 推荐(0) 编辑
摘要: 第九章(1)、异常检测1.正态\高斯分布 μ代表均值(曲线的对称轴)、σ代表标准差(曲线的宽度)根据数据集估计:2.密度估计3.数据集分类训练集使用正常产品的数据,验证集测试集使用正常和异常产品的数据。验证集和测试集的数据不能一样。4.使用交叉验证集去求,因为数据是高倾斜的y=1的数据很少,所... 阅读全文
posted @ 2014-12-01 10:00 baoff 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 无监督学习算法第八章,聚类算法一、K-means(k均值)算法1.K-means(k均值)算法:将一堆数据分成K类举例:将二维平面的数据分成2部分预处理:在平面上随机选两个点(聚类中心)K均值是一个迭代方法 它要做两件事情簇分配:每个数据里选好的两个点哪个近,就将他分到那一类里移动聚类中心:每个聚类... 阅读全文
posted @ 2014-11-27 09:49 baoff 阅读(2106) 评论(0) 推荐(0) 编辑
摘要: 第七章、支持向量机SVM(非线性)1.逻辑回归支持向量机代价函数:用cost1(z)代替,cost0(z)代替,两个函数的图像:去掉m,用C代替lambda,得支持向量机的算法:支持向量机的间距(大间隔分类):因为theta' *X>=1而不是0,所以会选择一条离数据最远的一条线,如图:会选择那条黑... 阅读全文
posted @ 2014-11-24 10:13 baoff 阅读(1197) 评论(0) 推荐(1) 编辑
摘要: 第六章,机器学习诊断法,改进机器学习算法,寻找合适的 上半部分:机器学习的建议1.当加入新的例子发现之前的算法是错误的,改进方法:寻找更多的训练集减少特征参数或修改特征参数,增加没有考虑到的特征增加多项式改变lambda的大小等等2.判断一个算法是否正确将数据集分成训练数据和测试数据(7:3,随机... 阅读全文
posted @ 2014-11-21 12:03 baoff 阅读(2460) 评论(0) 推荐(0) 编辑
摘要: 第五章 神经网络学习算法1.一些标记:L层数,sl表示层的神经元个数(不包括a0),k输出层的个数2.神经网络的代价函数(不再是凸函数了,会有局部最值。尽管这样,在使用梯度下降算法后,一般仍然表现很好)求代价函数的前向传播算法:3.反向传播算法理解:http://ufldl.stanford.edu... 阅读全文
posted @ 2014-11-18 11:34 baoff 阅读(2252) 评论(0) 推荐(0) 编辑
摘要: 第四章,神经网络介绍处理特征变量特别多时,多项式的量太多了(几何级数递增)模拟人脑只需要一个算法:将人的视觉信号发到大脑中原本处理听觉的部分,一段时间后就能处理视觉信号。所以处理视觉和听觉使用同一算法。盲人在头上安装一个摄像头,并通过连接舌头传到大脑中,就能看见。神经元:多个输入,细胞主体,输出神经... 阅读全文
posted @ 2014-11-16 11:55 baoff 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 第三章,逻辑回归(分类)and正则化上半部分:逻辑回归假设函数: (可以通过增加多项式来拟合曲线)要求: 重新定义函数为: g(z)图像:新的代价函数:图像:合并:(和线性回归类似,h(x)不同,有除以m)1.决策边界:对应h(x)=0.5,即theta' * X=0。2.寻找不同的代价函数使... 阅读全文
posted @ 2014-11-11 22:09 baoff 阅读(2511) 评论(0) 推荐(0) 编辑