会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
电竞杰森斯坦森
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
下一页
2020年7月26日
5-6-机器学习-特征工程之WOE、IV编码和分箱
摘要: 总结 IV (信息价值,或者信息量) 作用:可以用来衡量自变量(特征)的预测能力 公式: 对每组的IV值求和就可以求出一个特征的IV值 系数(py-pn):这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对特征整体预测能力的贡献越低 WOE (证据权重) 公式: 由公式可以看出
阅读全文
posted @ 2020-07-26 15:05 电竞杰森斯坦森
阅读(1855)
评论(0)
推荐(0)
2020年7月23日
4-5-机器学习-朴素贝叶斯算法(分类算法)
摘要: 总结 贝叶斯算法 我们希望模型在分类的时候不是直接返回分类,而是返回属于某个分类的概率 特征与特征之间条件独立(特征之间无任何关联),就可以使用贝叶斯算法,朴素指的就是条件独立 朴素贝叶斯模型常用于文本分类 在sk-learn中提供了三种不同类型的贝叶斯模型算法 高斯模型(基于高斯分布实现分类概率的
阅读全文
posted @ 2020-07-23 18:10 电竞杰森斯坦森
阅读(1196)
评论(0)
推荐(0)
4-机器学习-多项式回归+过拟合&欠拟合的处理、模型保存与加载
摘要: 总结 欠拟合:(对训练集的数据和测试集的数据拟合的都不是很好) 原因:模型学习到样本的特征太少 解决:增加样本的特征数量(多项式回归) 多项式回归:from sklearn.preprocessing import PolynomialFeatures 在原有特征的基础上增加高次方特征 过拟合:(对
阅读全文
posted @ 2020-07-23 17:12 电竞杰森斯坦森
阅读(2011)
评论(0)
推荐(0)
2020年7月22日
3-机器学习-线性回归+回归算法的评价指标
摘要: 总结 线性回归 线性回归原理:每个特征需要有一个权重系数,这个权重系数明确后,就可以通过计算预测最终结果,权重越大这个特征就越重要 权重系数的个数一定是和特征维度保持一致。 线性回归模型是否要带截距:如果带截距能够很好拟合就带上,这样的线性回归模型更具有通用性 回归算法就是在不断的自身迭代的减少误差
阅读全文
posted @ 2020-07-22 15:25 电竞杰森斯坦森
阅读(3925)
评论(0)
推荐(0)
2020年7月21日
2-机器学习-KNN+交叉验证案例实践之手写数字识别项目
摘要: 使用knn实现手写数字图片的识别 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklear
阅读全文
posted @ 2020-07-21 20:58 电竞杰森斯坦森
阅读(516)
评论(0)
推荐(0)
2-机器学习-KNN近邻算法分类模型、交叉验证
摘要: 总结 K近邻法的工作原理:某个未知类型点的特征数据距离K个已有类型近邻点特征数据的距离,根据这个距离对未知类型的数据进行分类 KNN模型超参数K值:K值不同会导致分类结果的不同 距离:采用欧几里得公式求得距离 适用范围:KNN适用于样本量级不够大得项目,因为它得运算成本比较高,数据量级越大,建模会耗
阅读全文
posted @ 2020-07-21 15:10 电竞杰森斯坦森
阅读(1303)
评论(0)
推荐(0)
2020年7月20日
1-机器学习-机器学习基础
摘要: 总结 数据集的划分:from sklearn.model_selection import train_test_split train_test_split(x,y,test_size,random_state)参数:x:特征数据,y:标签数据,test_size:测试集的比例,random_st
阅读全文
posted @ 2020-07-20 21:35 电竞杰森斯坦森
阅读(270)
评论(0)
推荐(0)
1-机器学习-特征工程
摘要: 总结 特征工程:对样本数据的特征进行处理除去对样本数据影响很大缺失值,重复值,异常值等等的垃圾数据,提高样本数据在模型中对未知数据预测的准确性 特征抽取 特征化:将非数值的数据转化为数值型的数据 字典数据特征化:from sklearn.feature_extraction import DictV
阅读全文
posted @ 2020-07-20 15:51 电竞杰森斯坦森
阅读(348)
评论(0)
推荐(0)
1-机器学习-机器学习概述
摘要: 总结 人工智能和机器学习的区别:机器学习可以实现人工智能 机器学习概念:机器学习就是利用样本数据进行一系列分析得到一个数据模型。这个模型可以对未知数据进行预测或分类 模型:对数据进行一系列分析后得到的产物,模型,模型存在的意义就是对未知数据进行预测 训练模型:将样本数据进行分析,训练他们,得到训练后
阅读全文
posted @ 2020-07-20 15:25 电竞杰森斯坦森
阅读(368)
评论(0)
推荐(0)
2020年7月17日
5-python数据分析-综合项目分析
摘要: 第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 查看数据的统计描述 在源数据中添
阅读全文
posted @ 2020-07-17 19:54 电竞杰森斯坦森
阅读(761)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
下一页
公告