随笔分类 - 读书笔记
摘要:第7章 优化:密码破译 优化简介:最优点(optimum),优化(optimization) 本章研究的问题:构建一个简单的密码破译系统,把解密一串密文当做一个优化问题。 优化方法:网格搜索(grid search),主要问题是1、步长的选择;2、维度灾难(Curse of Dimensionali
阅读全文
摘要:第6章 正则化:文本回归 线性回归的非线性扩展:广义加性模型(GAM, Generalized Additive Model)R语言中可用gam()函数实现 多项式回归:degree值不能无限增大,否则会产生过拟合(overfitting)现象。 过拟合:指模型拟合了部分噪声 避免过拟合的手段:交叉
阅读全文
摘要:第5章 回归模型:预测网页访问量 回归模型:用已知数据集预测另外一个数据集,已知数据集称为输入,也叫预测变量或特征,想要预测的数据称为输出。回归模型与分类模型的不同之处在于回归模型的输出是有意义的数值。 基准模型:用均值作为预测 #machine learing for heckers #chapt
阅读全文
摘要:第4章 排序:智能收件箱 有监督学习与无监督学习:有监督学习已有明确的输出实例;无监督学习在开始处理数据时预先并没有已知的输出实例。 理论上邮件的优先级特征: 社交特征:收件人与发件人之间的交互程度 内容特征:收件人对邮件采取行为(回复、标记等)与某些特征词之间相关 线程特征:记录用户在当前线程下的
阅读全文
摘要:第3章 分类:垃圾过滤 #machine learing for heckers #chapter 3 #设置路径变量 ############################################构建垃圾邮件和正常邮件的特征词项类别知识库#########################
阅读全文
摘要:第2章 数据分析 #machine learing for heckers #chapter 2 #不同区间宽度的直方图 #密度曲线图 #峰值处平坦,考虑图像有结构缺失,根据性别分别绘制密度曲线图 #正态分布:钟形的窄尾分布,单峰对称#柯西分布:钟形的重尾分布,单峰对称 #gamma分布#gamma
阅读全文
摘要:第1章 使用R语言 #machine learing for heckers #chapter 1 #.tsv文件用制表符进行分割#字符串默认为factor类型,因此stringsAsFactors置FALSE防止转换#header置FALSE防止将第一行当做表头#定义空字符串为NA:na.stri
阅读全文
浙公网安备 33010602011771号