2020 年 4月 3 日随笔档案 - 候乐

k近邻算法

摘要： k近邻算法就是用你的邻居来判断你怎么样有一个距离公式 API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数阅读全文

posted @ 2020-04-03 19:31 候乐阅读(133) 评论(0) 推荐(0)

决策树

摘要：决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。物理学上熵是混乱程度的代表系统越有序熵值越高从信息的完整性上进行的描述:当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散阅读全文

posted @ 2020-04-03 19:30 候乐阅读(210) 评论(0) 推荐(0)

朴素贝叶斯

摘要：朴素贝叶斯一般都是用来分类的文本分类比如垃圾邮件分类文章分类概率基础概率定义为一件事情发生的可能性联合概率包含多个条件且所有条件都成立的概率 P（A,B）特点 P(A)P(B) 条件概率事情A在事情B已经发生条件下的发生概率P(A|B)特点P(A1,A2|B) = P(A1|B)(A 阅读全文

posted @ 2020-04-03 19:25 候乐阅读(150) 评论(0) 推荐(0)

逻辑、线性回归与聚类分析

摘要：逻辑回归逻辑回归（Logistic Regression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归。由于算法的简单和高效，在实际中应用非常广泛。逻辑回归就是解决二分类问题的利器逻辑回归的输入就是一个线性回归的结果。逻辑回归最终的分类是通过属于某个类别的概率值来判断阅读全文

posted @ 2020-04-03 19:24 候乐阅读(1665) 评论(0) 推荐(0)

评分卡

posted @ 2020-04-03 19:22 候乐阅读(580) 评论(0) 推荐(0)

金融风控

摘要：金融风控相关业务介绍早期信贷风控怎么做？人审靠业务经验，效率低不适用于移动互联网时代的金融场景建模的概念建模就是构造一个数学公式，将我们手上有的数据输入进去，通过计算得到预测结果风控模型最原始的思路就是输入用户的信息，得到这个人 “会还钱” 还是 “不会还钱”。这就是个二分类问题。而评阅读全文

posted @ 2020-04-03 19:21 候乐阅读(333) 评论(0) 推荐(0)

会员数据化运营

摘要：会员数据化运营会员数据化运营概括会员数据化运营辅助与用户关系管理（CRM）会员运营的整体指标、营销指标、活跃度指标、价值度指标、终生价值指标、异动指标费用一般就是营销费用媒介费用优惠券费用积分费用虽然说积分没有立即兑换但是对于企业来说也相当于已经投出去了营销媒介费用比如短信推阅读全文

posted @ 2020-04-03 19:19 候乐阅读(588) 评论(0) 推荐(0)

power BI

摘要： powerBI基本功能 powerBI有桌面的也有网页的连接数据或者链接数据库转换或者清除数据创建数据模型同时处理多个报表 Excel不可以只能放到一个报表可以与他人共享就像百度云盘主主要是用于企业的周报日报之类的有可能要的数据在几个报表里面所以先合并基本用法与代码月阅读全文

posted @ 2020-04-03 19:18 候乐阅读(307) 评论(0) 推荐(0)

pandas数据处理

摘要： pandas数据处理建模流程业务抽象为分类&回归问题（两种问题）定义标签（找到目标值）选取样本（选取特征）特征工程 + 模型训练 + 模型评价调优输出报告上线开始监控特征数据预处理数据清洗数据抽样数据转换数据清洗 ####缺失值处理数据缺分类行记录丢失就是没有数据了阅读全文

posted @ 2020-04-03 19:15 候乐阅读(379) 评论(0) 推荐(0)

数据集

摘要： scikit learn python语言机器学习的工具有着丰富的API 数据集有着训练和测试两个不同的具体多上自己定 scikit learn接口有分类聚类回归特征工程模型选择调优加载数据集 sklearn.datasets datasets.load_ () 加载小规模的数据数据阅读全文

posted @ 2020-04-03 19:12 候乐阅读(235) 评论(0) 推荐(0)

sklearn转化器、估计器

摘要：把特征工程的接口称之为转换器转换器有三种形式 fit_transform fit transform 虽然后fit和不带fit都一样的但是因为某些原因不带fit不好用的什么是估计器就是你实例的权限是来自与谁啊谁给你的权利谁就是估计器分类估计器 sklearn.neighbors k 近阅读全文

posted @ 2020-04-03 19:10 候乐阅读(275) 评论(0) 推荐(0)

特征三部曲

摘要：特征工程专业的技术处理数据直接能影响机器学习就是比较厉害一点的数据处理特征抽取数据预处理特征降维特征抽取将任意的数据比如文本图片转换成机器学习的数字特征就是为了计算机更好的处理数据字段特征提取特征离散化文本特征图像的特征 API sklearn.feature_extr 阅读全文

posted @ 2020-04-03 19:06 候乐阅读(176) 评论(0) 推荐(0)

模型调优

摘要：交叉检验是将拿到的数据集分为训练和验证数据分成几份其中一份做验证集经过几次的测试得到五组模型取平均值超参数搜索网格搜索很多情况下都是手动调参的吗，这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。模型选阅读全文

posted @ 2020-04-03 19:05 候乐阅读(185) 评论(0) 推荐(0)

sql语句

摘要： mysql -u用户名 -p密码 quit 登出数据库 exit退出数据库 show databases ; 查看所有数据库 create database 数据库名 charset=utf8; use 数据库名; 使用数据库 drop database 数据库名; 删除数据库 show table 阅读全文

posted @ 2020-04-03 19:01 候乐阅读(132) 评论(0) 推荐(0)

用户周期和流失

摘要：用户流失预测分析与应用预测用户是么时候流失什么特征的用户比较容易发生流失流失用户的那些特性最显著针对这些用户有什么挽回动作定义流失什么规则是流失一个依据是什么二分类问题流失/未流失因为要找到特征明显的所以用决策树算法流失用户少量所以还解决两方面不均衡 XGBoost跟决策树阅读全文

posted @ 2020-04-03 19:00 候乐阅读(415) 评论(0) 推荐(0)

分析和挖掘常用方法

摘要：数据分析和挖掘常用方法聚类分析回归分析分类分析常用分析手段不同方法内在业务联系聚类分析用户是那些群体组成的这些群体有那些明显的特征回归分析未来销售趋势预测营销投入如何影响销售分类分析筛选出更值得营销的用户其他分析手段关联分析异常检测分析聚类分析聚类就是把相似特征的阅读全文

posted @ 2020-04-03 18:58 候乐阅读(447) 评论(0) 推荐(0)

候乐

公告