随笔分类 - Machine Learning
摘要:最近在Udacity上学习Machine learning课程,对于验证集、测试集和训练集的相关概念有些模糊。故整理相关资料如下。 交叉检验(Cross Validation) 在数据分析中,有些算法需要利用现有的数据构建模型,比如贝叶斯分类器,决策树,线性回归等,这类算法统称为监督学习(Super
阅读全文
摘要:偏差造成的误差 准确率和欠拟合 方差 精度和过拟合 Sklearn代码 理解bias &variance 在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。我们会对两
阅读全文
摘要:评估指标 Evaluation metrics 机器学习性能评估指标 选择合适的指标 分类与回归的不同性能指标 分类的指标(准确率、精确率、召回率和 F 分数) 回归的指标(平均绝对误差和均方误差) 混淆矩阵(confusion matricess) 一、选择合适的指标 评估模型是否得到改善,总体表
阅读全文
摘要:Concept in English Coding Portion 评估回归的性能指标——R平方指标 比较分类和回归 Continuous supervised learning 连续变量监督学习 Regression 回归 Continuous:有一定次序,且可以比较大小 一、Concept in
阅读全文
摘要:重视Code Review 极致——目标是成为优秀的开发者 Data tells a story!(数据会讲故事) 分析过程对于建模非常的重要,可以帮助我们减少实际上不相关的特征被错误的加入到模型中,尽管在一些模型里,比如线性回归,在建模后期可以通过一定的方法将这些不相关的特征识别出来,但既然能够通
阅读全文
摘要:机器学习就像酿制葡萄酒——好的葡萄(数据)+好的酿酒方法(机器学习算法) 监督分类 supervised classification Features —— Labels 保留10%的数据作为测试数据集 监督学习之朴素贝叶斯 Naive Bayes——寻找决策面 scikit learn使用入门
阅读全文
摘要:通过专门检索和其他课本的比较,得到了如下结论。统计学在分析数据时,需要对数据进行最基础的描述性分析。在众多描述分析的指标中,平均数指标能够反映分布数列集中趋势。但是平均数指标包括两类:一类是数值平均数。另一类是位置平均数。 在平常用的时候“average”跟“mean”基本上是一个意思。但是在统计学
阅读全文
摘要:What? Why? How? 安装 启动 关闭 保存 Markdown语法 Magic关键词 转换notebook——toHTML 创建幻灯片 运行代码 What? 文字化编程 notebook 是 Donald Knuth 在 1984 年提出的文字表达化编程的一种形式。在文字表达化编程中,直接
阅读全文
摘要:Teaching computers to learn to perform tasks from past experiences(recorded data) 一、Decision Tree(决策树) ——Example:for recommend app 二、Naive Bayes Algor
阅读全文
摘要:解决方法: 增加一个名为 sitecustomize.py, 推荐存放的路径为 site packages 目录下 sitecustomize.py 是在 site.py 被import 执行的, 因为 sys.setdefaultencoding() 是在 site.py 的结尾处被删除的, 所以
阅读全文

浙公网安备 33010602011771号