Python之数据预处理 - 随笔分类 - 布尔先生

Python中的魔法方法整理

摘要：阅读目录构造和初始化属性访问控制描述器对象构造自定义容器(Container) 上下文管理对象的序列化运算符相关的魔术方法比较运算符一元运算符和函数算术运算符反算术运算符增量赋值类型转化其他魔术方法 Python3中的差异构造和初始化 __init__我们很熟悉了,它在对阅读全文

posted @ 2020-02-19 22:47 布尔先生阅读(501) 评论(0) 推荐(0)

Docker基本操作

摘要：Docker 简介什么是docker？A container is a standard unit of software that packages up code and all its dependencies so the application runs quickly and reli 阅读全文

posted @ 2020-01-31 16:04 布尔先生阅读(326) 评论(0) 推荐(0)

热编码

摘要：get_dummies 是利用pandas实现one hot encode的方式。详细参数请查看官方文档 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, 阅读全文

posted @ 2019-10-24 19:34 布尔先生

pandas速查手册(中文版)

摘要：本文翻译自文章：Pandas Cheat Sheet - Python for Data Science 对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置阅读全文

posted @ 2019-05-12 08:51 布尔先生阅读(12030) 评论(0) 推荐(0)

数据预处理小结

摘要：数据挖掘概念与技术定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价第一章、数据挖掘的数据类型：时间序列，序列，数据流，时间空间数据，多媒体数据，文本数据，图，社会网络和web数据；挖掘：知识类型、使用的技术、目标应用的技术、挖掘任务分类。衡量取样数据质量的标准：阅读全文

posted @ 2018-05-25 10:04 布尔先生阅读(1717) 评论(0) 推荐(0)

Jupyter Notebook中的快捷键

摘要：1.快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Shift-Enter : 运行本单元，选中下个单阅读全文

posted @ 2018-04-09 15:58 布尔先生阅读(675) 评论(0) 推荐(0)

GBDT原理及利用GBDT构造新的特征-Python实现

摘要：1. 背景 1.1 Gradient Boosting Gradient Boosting是一种Boosting的方法，它主要的思想是，每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能（一般为拟合程度+正则项），认为损失函数越小，性能越好。而让损失函数持续下降，就能使得模阅读全文

posted @ 2018-04-09 14:32 布尔先生阅读(753) 评论(0) 推荐(0)

CTR预估中GBDT与LR融合方案(转载)

摘要：1、背景 CTR预估，广告点击率（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR（Logistic Regression）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变阅读全文

posted @ 2018-04-09 14:29 布尔先生阅读(678) 评论(0) 推荐(0)

滑窗法详解

摘要：一：问题描述题目中涉及到严格的时间概念，例如：预测未来N天的流量（人流，销售等），预测未来N天内的用户-对象对（用户-商品等）的问题等，都可以利用滑窗法解决。诸如类似形式的问题，尤其是要有严格的时间概念的问题。二：基本方法假设：题目描述为预测未来N天的流量信息，其中N的取值为大于等于1。基本诸阅读全文

posted @ 2018-04-09 10:04 布尔先生阅读(1965) 评论(0) 推荐(0)

Numpy 学习（一）

摘要：1.Numpy 中Matrices和arrays的区分 Numpy matrices必须是2维的,但是 numpy arrays (ndarrays) 可以是多维的（1D，2D，3D····ND）. Matrix是Array的一个小的分支，包含于Array。所以matrix 拥有array的所有特性阅读全文

posted @ 2018-03-29 10:01 布尔先生阅读(313) 评论(0) 推荐(0)

Nmpy函数总结

摘要：函数和方法method总览这是个Numpy函数和方法分类排列目录。创建数组转化操作询问排序运算基本统计基本线性代数阅读全文

posted @ 2018-03-28 15:59 布尔先生阅读(731) 评论(0) 推荐(0)

时间序列函数resamlpe详解

摘要：resample与groupby的区别：resample：在给定的时间单位内重取样groupby：对给定的数据条目进行统计函数原型：DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None 阅读全文

posted @ 2018-03-28 11:07 布尔先生阅读(1129) 评论(0) 推荐(0)

Matplotlib画图详解

摘要：1.1图像无法显示中文的原因 matplotlib中无中文库解决办法：每次编代码时加上 2、散点图详解 x,y 形如shape(n,)的数组，可选值， s 点的大小（也就是面积）默认20 c 点的颜色或颜色序列，默认蓝色。其它如c = 'r' (red); c = 'g' (green); c 阅读全文

posted @ 2018-03-28 10:16 布尔先生阅读(1643) 评论(0) 推荐(0)

Pandas的一些简单函数总结

摘要：pd.Series(my_list) # 从一个可迭代的对象 my_list 中创建一个数据组df.index = pd.date_range('2017/1/1', periods=df.shape[0]) # 添加一个日期索引 indexdf.tail(n) # 查看数据框的最后n行df.set 阅读全文

posted @ 2018-03-27 16:48 布尔先生阅读(229) 评论(0) 推荐(0)

合并函数总结

摘要：通过python下的pandas库下的merge方法和concat方法来实现数据集的合并。 1.merge merge 函数通过一个或多个键来将数据集的行连接起来。该函数的主要应用场景是针对同一个主键存在两张包含不同特征的表，通过该主键的连接，将两张表进行合并。合并之后，两张表的行数没有增加，列数阅读全文

posted @ 2018-03-27 16:40 布尔先生阅读(922) 评论(0) 推荐(0)

Pandas时间处理的一些小方法

摘要：一、以下有两种方式可以创建一个Timestamp对象： 1. Timestamp()的构造方法 2. to_datetime()方法 datetime模块的对象有如下： timedelta date datetime time tzinfo 还包含以下两个常量： datetime.MINYEAR （阅读全文

posted @ 2018-03-27 16:03 布尔先生

python 小技巧

摘要：计算时间差，时间加减运算代码最近在学习数据预处理，碰到日期型数据不会处理，上网查了下： Q:如何方便的计算两个时间的差，如两个时间相差几天，几小时等A:使用datetime模块可以很方便的解决这个问题，举例如下： import datetime d1 = datetime.datetime(200 阅读全文

posted @ 2018-03-23 09:21 布尔先生阅读(2021) 评论(0) 推荐(0)

布尔先生

随笔分类 - Python之数据预处理

公告