随笔分类 - 机器学习
摘要:贝叶斯(约1701-1761) Thomas Bayes,英国数学家 1762) 贝叶斯方法源于他生前为解决一个 逆概 问题写的一篇文章。 贝叶斯要解决的问题 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大\ 逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而
阅读全文
摘要:模型误差 模型误差 = 偏差(Bias) + 方差(Variance) + 不可避免的误差 偏差方差权衡 Bias Variance Trade off 偏差 (Bias) 导致偏差的主要原因:对问题本身的假设不正确! 如:非线性数据 使用线性回归 欠拟合 方差(Variance) 数据的一点点扰动
阅读全文
摘要:特征使用方案 实现我们的目标需要哪些数据?基于业务理解 ,尽可能找出对因变量有影响的所有自变量 可用性评估 获取难度 覆盖率 准确率 特征获取方案 如何获取这些特征? 如何存储? 特征处理 特征清洗 清洗异常样本 采样 数据不均衡 样本权重 预处理 单个特征 归一化 离散化 Dummy Coding
阅读全文
摘要:什么是拉索回归 LASSO: Least Absolute Shrinkage and Selection Operator Regression 岭回归的目标: 使 $J(\theta) = MSE(Y, \hat; \theta) \alpha \frac{1}{2} \sum_n \theta
阅读全文
摘要:常用 User Guide (建议通读) https://scikit-learn.org/stable/user_guide.html ApacheCN:scikit-learn (sklearn) 官方文档中文版 https://sklearn.apachecn.org https://gith
阅读全文
摘要:使用 minst = fetch_mldata('MINST original') 获取数据的时候,提示这个错误 ConnectionResetError: [Errno 54] Connection reset by peer 看到这篇博文一步步往下走,解决了问题 https://blog.csd
阅读全文
摘要:查看数据信息 数据异常 空数据 数据不均衡 数据归一化 大量数据 预处理方法 数据的归一化 数据引入 csv html, html、sax、dom 解析器 xml databases,pyodbc json pdf, pdfminer 查看数据信息 DataFrame的基础属性 DataFrame的
阅读全文
摘要:训练集 & 测试集 如果拿所有原始数据来训练,存在的问题: 模型很差无法调整; 真实环境难以拿到真实 label; 所以将数据区分为 训练数据 和 测试数据(train test split); 将训练数据来训练模型;然后用测试数据测试模型; 使用这种方式也存在问题; python 原生分离 iri
阅读全文
摘要:什么是机器学习? 传统计算机任务:编写规则,让计算机去执行 机器学习:让计算机去学习,自定义规则 传统任务遇到的问题: 1、对于很多问题,规则难以制定; 2、规则在不断变化。 人工智能、机器学习、深度学习 机器学习是AI 的一种方法; AI 还有其他解决方法,如: 以搜索为基础的算法(传统的搜索策略
阅读全文
摘要:直观理解高斯核函数 import numpy as np import matplotlib.pyplot as plt x = np.arange(-4, 5, 1) x # array([-4, -3, -2, -1, 0, 1, 2, 3, 4]) y = np.array((x >= -2)
阅读全文

浙公网安备 33010602011771号