上一页 1 2 3 4 5 6 7 ··· 39 下一页
  2022年6月22日
摘要: 当变量字段特别多时,我们想重命名字段名,比如说原来是英文字段名,需要改成中文字段名,而我们又有一个中英文对照的字典表。如果想批量处理,需要将中英文名映射成一个字典,然后再rename 那么如何将pandas 的df中的某两列(一列作为key,一列作为values)转成字典? 思路:首先某一列作为索引 阅读全文
posted @ 2022-06-22 10:10 小小喽啰 阅读(3646) 评论(0) 推荐(0)
  2022年6月20日
摘要: 首先来介绍一些SQL 的lag函数,在需要取到同一列中上n行或者下n行的值,就可以使用到lag窗口函数,在计算连续天数,或者排查数据是否连续时非常实用。 那么Python 又是怎么实现这种功能 首先我们使用的鸢尾花数据 #鸢尾花数据集 from sklearn.datasets import loa 阅读全文
posted @ 2022-06-20 17:44 小小喽啰 阅读(635) 评论(0) 推荐(0)
  2022年5月27日
摘要: 好记性不如烂笔头,以备不时之需 (1)shell 设定定时任务 crontab -e 时,总是不记得时间的表达:https://tool.lu/crontab/ (2)catboost 的API :https://catboost.ai/ (3)搜一些电子书 :这个是知乎推荐的工具https://z 阅读全文
posted @ 2022-05-27 11:26 小小喽啰 阅读(70) 评论(0) 推荐(0)
  2022年4月24日
摘要: 前语:平时计算变量IV值时也有调用过scorecardpy库,不过总体来说使用次数不多,对此功能也不是很熟悉,一般都是使用自己内部的库,但是涉及到去其他公司建模,或者是一个封闭的环境时,常常不能使用自己的东西,这就得使用toad或者scorecardpy,下面简单介绍一下,不过着重点还是一下三点: 阅读全文
posted @ 2022-04-24 11:53 小小喽啰 阅读(2513) 评论(0) 推荐(1)
  2022年4月15日
摘要: 一些有用的变量,比如省份或者是货物的编号等,涵盖这比较多信息,我们就可以使用CatBoost ,下面主要讲述一下CatBoost 的用法 一、使用CatBoost 内置数据。 首先导入数据 import pandas as pd import catboost print(catboost.__ve 阅读全文
posted @ 2022-04-15 11:18 小小喽啰 阅读(479) 评论(0) 推荐(0)
  2022年3月23日
摘要: 主要是将没有带任何分隔符的日期,比如20220101,将其处理为2022-01-01 (1)MySQL select date_format('20220101','%Y-%m-%d') (2)hive sql select to_date(from_unixtime(unix_timestamp( 阅读全文
posted @ 2022-03-23 10:45 小小喽啰 阅读(1214) 评论(0) 推荐(0)
  2021年11月29日
摘要: 最近在探索xgboost 调参事情,现在存在着几点问题: 1.调参方式,网上有多种调参方式,但是基本都是一个一个参数去调,贪心算法,只能满足局部最优,但是我们的参数都是相互影响的,局部最优,组合起来并非是最优的。 2.我基本都是确定几个参数的固定形式,比如说树的深度=3,最小叶节点=样本*5%,sc 阅读全文
posted @ 2021-11-29 17:21 小小喽啰 阅读(799) 评论(0) 推荐(1)
  2021年10月20日
摘要: 我们首先看代码 # -*- coding: utf-8 -*- """ Created on Wed Oct 20 15:04:12 2021 @author: chenguimei """ from sklearn import datasets from sklearn.model_select 阅读全文
posted @ 2021-10-20 15:14 小小喽啰 阅读(3573) 评论(0) 推荐(0)
  2021年10月11日
摘要: 保存完整的一个项目,需要保存代码,数据,以及整个文件,GitHub是比较好的选择,但是首次将代码push到GitHub上,也试错了不少。下面将试错过程记录下来 1.准备好GitHub账号,下载Git ,这部分不详细展开; 2.进入Github首页,点击New repository新建一个项目 ,有2 阅读全文
posted @ 2021-10-11 14:12 小小喽啰 阅读(1168) 评论(0) 推荐(0)
  2021年10月9日
摘要: 该章节涉及到知识图谱的知识,我们先说几个概念 1.节点和边 节点就是现实世界存在的实体,边就是实体和实体之间的关系 2.权重 权重通常用与衡量关系的强弱,权重越大,比如说用户A给用户B打了15个电话,则权重为15 3.有向图无向图 根据边是否有方向,分为有向图和无向图,比如说用户A给用户B打了15个 阅读全文
posted @ 2021-10-09 11:47 小小喽啰 阅读(796) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 39 下一页