• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

候乐

  • 博客园
  • 联系
  • 订阅
  • 管理

公告

2020年4月3日

k近邻算法

摘要: k近邻算法就是用你的邻居来判断你怎么样 有一个距离公式 API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数 阅读全文

posted @ 2020-04-03 19:31 候乐 阅读(133) 评论(0) 推荐(0)

决策树

摘要: 决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。 物理学上 熵是混乱程度的代表 系统越有序熵值越高 从信息的完整性上进行的描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散 阅读全文

posted @ 2020-04-03 19:30 候乐 阅读(210) 评论(0) 推荐(0)

朴素贝叶斯

摘要: 朴素贝叶斯一般都是用来分类的 文本分类 比如垃圾邮件分类 文章分类 概率基础 概率定义为一件事情发生的可能性 联合概率包含多个条件 且所有条件都成立的概率 P(A,B)特点 P(A)P(B) 条件概率 事情A在事情B已经发生条件下的发生概率P(A|B)特点P(A1,A2|B) = P(A1|B)(A 阅读全文

posted @ 2020-04-03 19:25 候乐 阅读(150) 评论(0) 推荐(0)

逻辑、线性回归与聚类分析

摘要: 逻辑回归 逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。逻辑回归就是解决二分类问题的利器 逻辑回归的输入就是一个线性回归的结果。 逻辑回归最终的分类是通过属于某个类别的概率值来判断 阅读全文

posted @ 2020-04-03 19:24 候乐 阅读(1665) 评论(0) 推荐(0)

评分卡

摘要: 评分卡与集成学习 建立逻辑回归模型 对模型进行评分映射 逻辑回归回顾 公式 推导 逻辑回归构建评分卡 In [1]: In [2]: Out[2]: | | obs_mth | bad_ind | uid | td_score | jxl_score | mj_score | rh_score | 阅读全文

posted @ 2020-04-03 19:22 候乐 阅读(580) 评论(0) 推荐(0)

金融风控

摘要: 金融风控相关业务介绍 早期信贷风控怎么做? 人审靠业务经验,效率低 不适用于移动互联网时代的金融场景 建模的概念 建模就是构造一个数学公式,将我们手上有的数据输入进去,通过计算得到预测结果 风控模型最原始的思路就是输入用户的信息,得到这个人 “会还钱” 还是 “不会还钱”。这就是个二分类问题。 而评 阅读全文

posted @ 2020-04-03 19:21 候乐 阅读(333) 评论(0) 推荐(0)

会员数据化运营

摘要: 会员数据化运营 会员数据化运营概括 会员数据化运营辅助与用户关系管理(CRM) 会员运营的整体指标、营销指标、活跃度指标、价值度指标、终生价值指标、异动指标 费用一般就是营销费用 媒介费用 优惠券费用 积分费用 虽然说积分没有立即兑换 但是对于企业来说也相当于已经投出去了 营销媒介费用 比如短信 推 阅读全文

posted @ 2020-04-03 19:19 候乐 阅读(588) 评论(0) 推荐(0)

power BI

摘要: powerBI基本功能 powerBI有桌面的 也有网页的 连接数据 或者链接数据库 转换或者清除数据 创建数据模型 同时处理多个报表 Excel不可以 只能放到一个报表 可以与他人共享 就像百度云盘主 主要是用于企业的 周报 日报之类的 有可能要的数据在几个报表里面 所以先合并 基本用法与代码 月 阅读全文

posted @ 2020-04-03 19:18 候乐 阅读(307) 评论(0) 推荐(0)

pandas数据处理

摘要: pandas数据处理 建模流程 业务抽象为分类&回归问题 (两种问题) 定义标签(找到目标值) 选取样本(选取特征) 特征工程 + 模型训练 + 模型评价调优 输出报告 上线开始监控 特征 数据预处理 数据清洗 数据抽样 数据转换 数据清洗 ####缺失值处理 数据缺分类 行记录丢失 就是没有数据了 阅读全文

posted @ 2020-04-03 19:15 候乐 阅读(379) 评论(0) 推荐(0)

数据集

摘要: scikit learn python语言机器学习的工具有着丰富的API 数据集有着训练和测试两个不同的 具体多上自己定 scikit learn接口有 分类 聚类 回归 特征工程 模型选择 调优 加载数据集 sklearn.datasets datasets.load_ () 加载小规模的数据数据 阅读全文

posted @ 2020-04-03 19:12 候乐 阅读(235) 评论(0) 推荐(0)

sklearn转化器、估计器

摘要: 把特征工程的接口称之为转换器 转换器有三种形式 fit_transform fit transform 虽然后fit和不带fit都一样的 但是因为某些原因不带fit不好用的 什么是估计器 就是你实例的权限是来自与谁啊 谁给你的权利 谁就是估计器 分类估计器 sklearn.neighbors k 近 阅读全文

posted @ 2020-04-03 19:10 候乐 阅读(275) 评论(0) 推荐(0)

特征三部曲

摘要: 特征工程专业的技术处理数据 直接能影响机器学习 就是比较厉害一点的数据处理 特征抽取 数据预处理 特征降维 特征抽取 将任意的数据 比如文本 图片 转换成机器学习的数字特征 就是为了计算机更好的处理数据 字段特征提取 特征离散化 文本特征 图像的特征 API sklearn.feature_extr 阅读全文

posted @ 2020-04-03 19:06 候乐 阅读(176) 评论(0) 推荐(0)

模型调优

摘要: 交叉检验是将拿到的数据集分为训练和验证 数据分成几份 其中一份做验证集 经过几次的测试 得到五组模型取平均值 超参数搜索 网格搜索 很多情况下都是手动调参的吗,这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。 模型选 阅读全文

posted @ 2020-04-03 19:05 候乐 阅读(185) 评论(0) 推荐(0)

sql语句

摘要: mysql -u用户名 -p密码 quit 登出数据库 exit退出数据库 show databases ; 查看所有数据库 create database 数据库名 charset=utf8; use 数据库名; 使用数据库 drop database 数据库名; 删除数据库 show table 阅读全文

posted @ 2020-04-03 19:01 候乐 阅读(132) 评论(0) 推荐(0)

用户周期和流失

摘要: 用户流失预测分析与应用 预测用户是么时候流失 什么特征的用户比较容易发生流失 流失用户的那些特性最显著 针对这些用户有什么挽回动作 定义流失 什么规则是流失 一个依据是什么 二分类问题 流失/未流失 因为要找到特征明显的 所以用决策树算法 流失用户少量 所以还解决两方面不均衡 XGBoost跟决策树 阅读全文

posted @ 2020-04-03 19:00 候乐 阅读(415) 评论(0) 推荐(0)

分析和挖掘常用方法

摘要: 数据分析和挖掘常用方法 聚类分析 回归分析 分类分析 常用分析手段 不同方法内在业务联系 聚类分析 用户是那些群体组成的 这些群体有那些明显的特征 回归分析 未来销售趋势预测 营销投入如何影响销售 分类分析 筛选出更值得营销的用户 其他分析手段 关联分析 异常检测分析 聚类分析 聚类就是把相似特征的 阅读全文

posted @ 2020-04-03 18:58 候乐 阅读(447) 评论(0) 推荐(0)

 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3