2021年1月11日

Sklearn机器学习模型上线

摘要: 方案1: 根据(Python) 输出模型的pmml文件;开发者根据pmml文件,开发java上线。方案2: 单独的部署一个生产的python环境,模型输出到这个环境并起flask的api,给java开发者调用。 结论: 方案1不可行。方案2是业内通行方案。 无法将模型预测全部(含特征加工和输出值转换 阅读全文

posted @ 2021-01-11 11:04 andy_1 阅读(719) 评论(0) 推荐(0)

2020年11月30日

模型01预测值box-cox转换为正态分布评分

摘要: from sklearn.preprocessing import PowerTransformer 参数说明 method :可选,接受一个字符串值,默认是 ‘yeo-johnson’ , ’yeo-johnson’ :指明幂变换方式以 Yeo-Johnson transform 方式实现,此种方 阅读全文

posted @ 2020-11-30 10:44 andy_1 阅读(698) 评论(0) 推荐(0)

2020年11月28日

BI报表方案|数据大屏项目方案

摘要: 了解大屏,改进大屏 正规流程:产品画原型 UE设计 后端配合前端开发。 工具: 1.产品原型设计工具 Mockplus、 axure 2.数据可视化BI工具 superset、 tableau 、 powerbi 、 永洪科技 、帆软 3.tableau serve 简单版1200元/年 完全版50 阅读全文

posted @ 2020-11-28 21:02 andy_1 阅读(464) 评论(0) 推荐(0)

2020年11月27日

模型pipeline及pmml文件

摘要: 模型部署:sklearn模型保存为pmml文件 (注意:包sklearn2pmml中自带PMMLPipeline工具,所以不需要使用包sklearn中的Pipeline方法。) 环境: win7_64, anaconda3.6. 安装包,sklearn_pandas 用于特征工程的pipeline化 阅读全文

posted @ 2020-11-27 09:43 andy_1 阅读(2216) 评论(0) 推荐(1)

2020年10月9日

企业信息爬虫

摘要: 天眼查、启信宝、企查查等,会有提供企业工商信息。例如,百度百科使用启信宝数据源。天眼查获取方法:1. 天眼查付费接口:https://open.tianyancha.com/open/1001。按次收费预计:0.7元/次。2. 自己爬取‘企查查’数据。网上有很多Python对应案例,预计折腾一天可以 阅读全文

posted @ 2020-10-09 10:47 andy_1 阅读(891) 评论(0) 推荐(0)

2020年6月19日

python线程与进程、协程(并发与并行,同步和异步,阻塞与非阻塞)等概念学习

摘要: 知乎大神对进程和线程的总结。 你CPU快过IO设备, 人类作为统治阶级要压榨你, 不让你闲着, 于是一个任务(程序) 对应一个进程就出来了. 你CPU要雨露均沾的执行这些程序 然后呢? 人们发现 程序 还有很多可以细分的任务, 于是 多线程的设计方式出来了. 多线程的实现方案实在是太成熟了, 以至于 阅读全文

posted @ 2020-06-19 15:12 andy_1 阅读(228) 评论(0) 推荐(0)

2019年10月9日

Excel按照某一列的重复数据设置隔行变颜色效果

摘要: 问题:如图所示,想按照A列中的重复数据设置隔重复行变颜色的效果,能否通过条件格式命令实现。 方法1:(最佳答案) 条件格式公式:=MOD(SUMPRODUCT(--($A$1:$A1<>$A$2:$A2)),2) 方法2:(笨方法) (1)在D列 生成一列 使用 1、2、1、2交替。 如D4 = i 阅读全文

posted @ 2019-10-09 19:57 andy_1 阅读(2530) 评论(0) 推荐(0)

2019年10月8日

windows中将网络共享文件夹映射为网络硬盘

摘要: 目的是: 实现局域网,不同电脑之间共享文件。 例如: 计划将A电脑 的文件夹C:\MM ,共享给局域网电脑 B。 局域网所有电脑都可访问: 1. 在A电脑中 共享文件夹。。选择‘启用网络发现’ ‘关闭密码保护共享’ 。 注意: 一定要选 guest。。 2. 在B电脑中 的dos界面输入命令: ne 阅读全文

posted @ 2019-10-08 16:47 andy_1 阅读(7173) 评论(0) 推荐(0)

2019年9月9日

使用python爬去国家民政最新的省份代码的程序,requests,beautifulsoup,lxml

摘要: 使用的python3.6 民政网站,不同年份数据可能页面结构不一致,这点踩了很多坑,这也是代码越写越长的原因。 如果以后此段代码不可用,希望再仔细学习下 页面结构是否发生了变更。 阅读全文

posted @ 2019-09-09 11:16 andy_1 阅读(382) 评论(0) 推荐(0)

2019年9月5日

hive函数总结

摘要: 参加工作5年多,hive(sql)用了4年多。 很多时候用的时候,都是用啥查啥学啥,过往的工作是成堆的sql,也没有梳理。 这里就做一下笔记本。遇到好用的函数记录一下。 Hive 时间日期处理总结 --日期转季度SELECT concat_ws('-',substring('2020-05-01', 阅读全文

posted @ 2019-09-05 11:20 andy_1 阅读(214) 评论(0) 推荐(0)

2019年8月1日

SQL中null比较的雷区

摘要: SQL中遇到null要格外小心! oracle最坑: oracle中在可为null的字段上做逻辑关系运算要格外小心,如 <>,>,=,<,任何与null的运算结果都返回false,因此对于可能为null的字段运算判断要用 is null 来判断,或者使用函数nvl、decode处理后在判断,比如:w 阅读全文

posted @ 2019-08-01 10:22 andy_1 阅读(681) 评论(0) 推荐(0)

2019年7月27日

hive拉链表取数

摘要: 例如,一个借款用户在hive上的拉链表。(end_dt存放逻辑与普通介绍的拉链表不一致) 需要拉去它在2019-05-01日的状态, 取数逻辑是: select * from tb where start_dt<='2019-05-01' and end_dt>'2019-05-01' and dt 阅读全文

posted @ 2019-07-27 15:35 andy_1 阅读(624) 评论(0) 推荐(0)

hive-oracle-常用分析函数-窗口函数

摘要: 常用的分析函数如下所列: row_number() over(partition by ... order by ...)rank() over(partition by ... order by ...)dense_rank() over(partition by ... order by ... 阅读全文

posted @ 2019-07-27 10:54 andy_1 阅读(224) 评论(0) 推荐(0)

2019年6月21日

hive行转列的高级用法later view explode

摘要: 先贴出一个示例: 参考链接 阅读全文

posted @ 2019-06-21 19:09 andy_1 阅读(988) 评论(0) 推荐(0)

2019年6月18日

Hive 行列转换

摘要: hive 阅读全文

posted @ 2019-06-18 09:31 andy_1 阅读(252) 评论(0) 推荐(0)

2019年5月7日

ORACLE 使用笔记

摘要: ORACLE TRUNC()函数 TRUNC():类似截取函数,按指定的格式截取输入的数据。 1.【trunc(for dates)】TRUNC()函数处理日期 语法格式:TRUNC(date[,fmt]) 其中:date 一个日期值;fmt 日期格式。 该日期将按指定的日期格式截取;忽略它则由最近 阅读全文

posted @ 2019-05-07 11:19 andy_1 阅读(241) 评论(0) 推荐(0)

2019年4月26日

Python资源大全,让你相见恨晚的Python库

摘要: Python资源大全,让你相见恨晚的Python库 Linux常用156个命令汇总 阅读全文

posted @ 2019-04-26 14:08 andy_1 阅读(312) 评论(0) 推荐(0)

2019年4月8日

基于python的k-s值计算

摘要: 做评分卡模型时(假设有多个自变量,因变量即是否违约。)通常需要筛选变量。 k-s值的作用类似于AUC,它期初是用来评价模型(变量)对是否违约事件的区分程度的。 ks检验介绍<转载>笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器学习评价标准,比如说准确率、精确率 阅读全文

posted @ 2019-04-08 20:07 andy_1 阅读(8475) 评论(0) 推荐(1)

2019年3月13日

sklearn聚类模型:基于密度的DBSCAN;基于混合高斯模型的GMM

摘要: 1 sklearn聚类方法详解 2 对比不同聚类算法在不同数据集上的表现 3 用scikit-learn学习K-Means聚类 4 用scikit-learn学习DBSCAN聚类 (基于密度的聚类) 5 DBSCAN密度聚类算法 6 混合高斯模型Gaussian Mixture Model(GMM) 阅读全文

posted @ 2019-03-13 15:04 andy_1 阅读(1638) 评论(0) 推荐(0)

2019年3月7日

skearn学习路径

摘要: sklearn学习总结(超全面) 关于sklearn,监督学习几种模型的对比 sklearn之样本生成make_classification,make_circles和make_moons python np.logspace(1,10,5) np.linspace() 创建等比数列,生成(star 阅读全文

posted @ 2019-03-07 10:46 andy_1 阅读(382) 评论(0) 推荐(0)

LDA降维与PCA降维对比

摘要: 线性判别分析LDA原理总结 阅读全文

posted @ 2019-03-07 09:13 andy_1 阅读(189) 评论(0) 推荐(0)

透彻形象理解核函数

摘要: 透彻形象理解核函数 阅读全文

posted @ 2019-03-07 09:13 andy_1 阅读(247) 评论(0) 推荐(0)

2019年3月6日

sklearn 岭回归

摘要: 可以理解的原理描述: 【机器学习】岭回归(L2正则) 最小二乘法与岭回归的介绍与对比 多重共线性的解决方法之——岭回归与LASSO 阅读全文

posted @ 2019-03-06 15:59 andy_1 阅读(134) 评论(0) 推荐(0)

2019年2月27日

GBDT、XGBOOST、LightGBM对比学习及调参

摘要: 一、概述。 因为工作原因,LightGBM 、 XGBOOST 、GBDT 是不可避免要接触的。这里仅仅记录个人的学习经验。 总的认识: LightGBM > XGBOOST > GBDT (效果及易用性) 都是调参数比较麻烦。(个人感觉LightGBM和XGBOOST的默认参数已经很强大了。) 二 阅读全文

posted @ 2019-02-27 11:03 andy_1 阅读(1546) 评论(0) 推荐(0)

2019年2月25日

sklearn,交叉验证中的分层抽样

摘要: StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。 例子: import numpy as np from sklearn.model_selection import KFold,StratifiedKFold 作者:wqh 阅读全文

posted @ 2019-02-25 16:50 andy_1 阅读(3346) 评论(0) 推荐(0)

sklearn调参(验证曲线,可视化不同参数下交叉验证得分)

摘要: 一 、 原始方法: 思路: 1. 参数从 0+∞ 的一个 区间 取点, 方法如: np.logspace(-10, 0, 10) , np.logspace(-6, -1, 5) 2. 循环调用cross_val_score计算得分。 在SVM不同的惩罚参数C下的模型准确率。 效果: 二、高级方法( 阅读全文

posted @ 2019-02-25 15:34 andy_1 阅读(1583) 评论(0) 推荐(0)

SKlearn库学习曲线

摘要: 思想: # 1.现将所有样本用交叉验证方法或者(随机抽样方法) 得到 K对 训练集-验证集# 2.依次对K个训练集,拿出数量不断增加的子集如m个,并在这些K*m个子集上训练模型。# 3.依次在对应训练集子集、验证集上计算得分。# 4.对每种大小下的子集,计算K次训练集得分均值和K次验证集得分均值,共 阅读全文

posted @ 2019-02-25 14:12 andy_1 阅读(1888) 评论(0) 推荐(0)

2019年2月22日

SKlearn库学习曲线和验证曲线

摘要: SKlearn库学习曲线和验证曲线 阅读全文

posted @ 2019-02-22 10:47 andy_1 阅读(422) 评论(0) 推荐(0)

2019年1月31日

时间指标的细化

摘要: 阅读全文

posted @ 2019-01-31 14:41 andy_1 阅读(223) 评论(0) 推荐(0)

2019年1月24日

sklearn.model_selection模块

摘要: 后续补代码 sklearn.model_selection模块的几个方法参数 阅读全文

posted @ 2019-01-24 13:39 andy_1 阅读(568) 评论(0) 推荐(0)

K最近邻kNN-学习笔记

摘要: # 0.98 改进点: 1. 根据最近的K个值 的距离对最终结果,进行加权。 2. 通过先验知识,对训练数据进行筛选,缩小训练样本,提高样本质量,有利于提高计算速度。 3. 变量尽量少,这样可以提供速度。 优点: 1. 算法原理非常简单: 用 欧式距离最近(或曼哈顿距离)的K个样本点的分类中的众数, 阅读全文

posted @ 2019-01-24 09:49 andy_1 阅读(267) 评论(0) 推荐(0)

2019年1月23日

随机森林学习-sklearn

摘要: 随机森林的Python实现 (RandomForestClassifier) #有意思的输出clf.feature_importances_ # 输出 自变量的总要程度clf.predict_proba(test[features]) #输出每个测试样本对应几种数据类型的概率值 150个数据,112 阅读全文

posted @ 2019-01-23 10:07 andy_1 阅读(1857) 评论(0) 推荐(0)

2019年1月21日

matplotlib画堆叠条形图

摘要: plt.style.use("ggplot") #设置图片风格为ggplot plt.rcParams['figure.dpi'] = 100 #分辨率 阅读全文

posted @ 2019-01-21 16:17 andy_1 阅读(1436) 评论(0) 推荐(0)

PCA和SVD最佳理解

摘要: 奇异值分解(SVD)原理与在降维中的应用 https://www.cnblogs.com/pinard/p/6251584.html 最通俗易懂的PCA主成分分析推导 https://blog.csdn.net/u012526436/article/details/80868294,https:// 阅读全文

posted @ 2019-01-21 13:57 andy_1 阅读(626) 评论(0) 推荐(0)

linux unzip 中文乱码解决方法

摘要: 引自;https://blog.csdn.net/abyjun/article/details/48344379 unzip -O CP936 xxx.zip (用GBK, GB18030也可以) 阅读全文

posted @ 2019-01-21 11:39 andy_1 阅读(865) 评论(0) 推荐(0)

python文件、文件夹操作OS模块

摘要: 转自:python文件、文件夹操作OS模块 '''一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.listdir()3.函数用来删除一个 阅读全文

posted @ 2019-01-21 11:34 andy_1 阅读(387) 评论(0) 推荐(0)

2019年1月17日

利用pyecharts做地图数据展示

摘要: 首先, pip install pyecharts 为了地图上的数据能显示完全,加载好需要的城市地理坐标数据。 pip install echarts-countries-pypkg pip install echarts-china-provinces-pypkg pip install echa 阅读全文

posted @ 2019-01-17 11:19 andy_1 阅读(8918) 评论(0) 推荐(0)

2019年1月11日

描述机器学习之神经网络算法原理

摘要: 一、以小孩识别食物为例,描述机器学习之神经网络算法原理 准备阶段: 一个小孩(将使用的神经网络算法)刚出生(所有参数都是初始化的),对母乳以外的什么食物可以吃(怎样得到预测值)一无所知。 准备好很多的多种多样的食物(训练数据的输入),每种食物幼童是否可以食用是恒定的(训练数据的输出),但是这个小孩不 阅读全文

posted @ 2019-01-11 17:37 andy_1 阅读(537) 评论(0) 推荐(0)

2019年1月10日

python-pandas 高级功能(通过学习kaggle案例总结)

摘要: 方法.iterrows()遍历循环df中的元素。 for index,row in df.iterrows(): pass 更改df一个元素中的变量值。 data1.set_value(index,'Random_Predict',1) 阅读全文

posted @ 2019-01-10 16:32 andy_1 阅读(470) 评论(0) 推荐(0)

2019年1月8日

python装饰器@用法

摘要: 这个是我见过比较好的讲解链接: "【廖雪峰的官方网站 装饰器】" 阅读全文

posted @ 2019-01-08 11:41 andy_1 阅读(150) 评论(0) 推荐(0)

导航