会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
花生 瓜子 矿泉水
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2024年4月4日
1.9 - 特征工程
摘要: 1. 特征工程意义 数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限。 所有让模型效果变得更好的数据处理方式都可以称作特征工程。 2. 特征工程处理 2.1 数据清洗 选择数据处理工具&查看数据的元数据以及特征信息,对字段意义、数据格式内容等有所认识,基于业务理解对数据进行关联性验证等。
阅读全文
posted @ 2024-04-04 19:48 橘子葡萄火龙果
阅读(85)
评论(0)
推荐(0)
2024年4月3日
1.8 - 集成学习
摘要: 1.集成学习思想 1.1 Bagging 用一堆弱学习器,分别去解决同一个分类或回归问题,最终 投票决定分类结果 或 取均值决定回归结果。保证弱学习器的多样性。训练不同模型用的数据集采用【有放回随机抽样】。 1.2 随机森林 基学习器是 决策树,由原来的在所有特征的所有可能分裂点选取最佳分裂点,改成
阅读全文
posted @ 2024-04-03 20:10 橘子葡萄火龙果
阅读(33)
评论(0)
推荐(0)
1.7 - 决策树
摘要: 1. 模型理念 香农信息论:一个系统越是混乱,信息熵越高,系统越是有序,信息熵越低。S = ∑ ( -p log(p) ),因此,系统内变量越多,信息熵越大,变量之间出现的概率越平均,信息熵越大。 在银行借贷决策模型中,判定一个人是否可以借贷,每个选中这个人的一个特征数据进行判断,然后再上次判断的基
阅读全文
posted @ 2024-04-03 17:52 橘子葡萄火龙果
阅读(24)
评论(0)
推荐(0)
1.6 - 朴素贝叶斯及概率图模型
摘要: 1. 模型理念 利用 条件概率&全概率公式,由果推因,从已知的某个现象特征求得目标属性的方法。 所谓朴素:概率求解的过程中,假设数据特征之间是互相独立的,联合概率可以直接概率密度相乘。 2. 模型构建及特性 2.1 模型推理以及训练参数 由 条件概率公式 可以得知,在已知数据的各项特征前提下,求解当
阅读全文
posted @ 2024-04-03 16:54 橘子葡萄火龙果
阅读(61)
评论(0)
推荐(0)
1.5 - 支持向量积SVM
摘要: 1. 模型理念 在Logistic回归模型中,决策边界一旦能够将数据完全正确的分类,优化过程(梯段下降过程)就会立刻停止,因为在这个时候损失函数已经取得了最小值。而SVM则是求得所有正确解中的最优解。 支持向量积:以决策边界为中心,向两个方向做平行面直到两个平行面都恰好与两个类别的支持向量相交。两个
阅读全文
posted @ 2024-04-03 14:58 橘子葡萄火龙果
阅读(66)
评论(0)
推荐(0)
1.4 - logistic回归
摘要: 1. 模型理念 对于求解二分类问题,寻找一个决策边界,使得不同类别的点在边界的两侧,并用点到决策边界的 距离 表示该点属于某个类别的 概率。点到决策面的距离 d 直接将点代入决策面公式即可;距离到概率的映射函数需要符合概率的公理化定义,选用Sigmoid函数,(多分类问题选用 Softmax函数)。
阅读全文
posted @ 2024-04-03 11:58 橘子葡萄火龙果
阅读(25)
评论(0)
推荐(0)
2024年4月2日
1.5 - Numpy的方法中,axis参数的理解
摘要: 1.5.1 Numpy常用方法 在Numpy常用方法如:sum,argmin等方法中,经常出现参数 axis。【axis表示维度,从0开始,含义是:如果设置axis=i,则计算会沿着 i 变化的方向操作。】 示例: import sys import numpy as np a = np.arang
阅读全文
posted @ 2024-04-02 18:23 橘子葡萄火龙果
阅读(98)
评论(0)
推荐(0)
2024年3月18日
1.3 - 线性回归
摘要: 1.模型理念 解决分类问题的目标是,根据现有数据获得一个分类器,当出现新数据后代入分类器,得到新数据属于哪个类别;而所谓的回归:其本来应该在什么位置,实际案例中可能会有所偏离,但是随着趋势的进行,其结果不会一直偏离下去而是会在原本应该的位置上下抖动。对这类回归问题的研究方法是:根据现有的观测数据,找
阅读全文
posted @ 2024-03-18 20:34 橘子葡萄火龙果
阅读(31)
评论(0)
推荐(0)
1.2 - 特征归一化、梯度下降、模型评估、过拟合与欠拟合
摘要: 1.数据特征的归一化 1.1 问题产生 当样本不同特征数据的数值范围相差过大,目标函数会变得很扁,在梯度下降的时候,梯度方向会在一定程度上偏离极值点方向,降低了训练效率,增大了训练时间。有些训练数据的值很大,很容易超出数值范围,不利于运算。 1.2 归一化方法 通过归一化来解决上述问题,即:去量纲化
阅读全文
posted @ 2024-03-18 13:39 橘子葡萄火龙果
阅读(117)
评论(0)
推荐(0)
1.1 - 机器学习概述
摘要: 1. ML基本认识 机器学习是研究AI的一种方法。其从数据中挖掘特征从而学习到一些规律、规则(模型),然后对输入的新数据做出 预测(回归)和判断(分类)。 机器学习主要分为: 有监督学习:数据有标签,有监督学习分为 分类&回归 两类问题。 无监督学习:数据无标签,如:聚类等。 半监督学习:人工标注是
阅读全文
posted @ 2024-03-18 13:37 橘子葡萄火龙果
阅读(34)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告