随笔分类 - Python之数据预处理
摘要:阅读目录 构造和初始化 属性访问控制 描述器对象 构造自定义容器(Container) 上下文管理 对象的序列化 运算符相关的魔术方法 比较运算符 一元运算符和函数 算术运算符 反算术运算符 增量赋值 类型转化 其他魔术方法 Python3中的差异 构造和初始化 __init__我们很熟悉了,它在对
阅读全文
摘要:Docker 简介 什么是docker?A container is a standard unit of software that packages up code and all its dependencies so the application runs quickly and reli
阅读全文
摘要:get_dummies 是利用pandas实现one hot encode的方式。详细参数请查看官方文档 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False,
阅读全文
posted @ 2019-10-24 19:34
布尔先生
摘要:本文翻译自文章:Pandas Cheat Sheet - Python for Data Science 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置
阅读全文
摘要:数据挖掘概念与技术 定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章、数据 挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,文本数据,图,社会网络和web数据; 挖掘:知识类型、使用的技术、目标应用的技术、挖掘任务分类。 衡量取样数据质量的标准:
阅读全文
摘要:1.快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Shift-Enter : 运行本单元,选中下个单
阅读全文
摘要:1. 背景 1.1 Gradient Boosting Gradient Boosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模
阅读全文
摘要:1、背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变
阅读全文
摘要:一:问题描述 题目中涉及到严格的时间概念,例如:预测未来N天的流量(人流,销售等),预测未来N天内的用户-对象对(用户-商品等)的问题等,都可以利用滑窗法解决。诸如类似形式的问题,尤其是要有严格的时间概念的问题。 二:基本方法 假设:题目描述为预测未来N天的流量信息,其中N的取值为大于等于1。基本诸
阅读全文
摘要:1.Numpy 中Matrices和arrays的区分 Numpy matrices必须是2维的,但是 numpy arrays (ndarrays) 可以是多维的(1D,2D,3D····ND). Matrix是Array的一个小的分支,包含于Array。所以matrix 拥有array的所有特性
阅读全文
摘要:函数和方法method总览 这是个Numpy函数和方法分类排列目录。 创建数组 转化 操作 询问 排序 运算 基本统计 基本线性代数
阅读全文
摘要:resample与groupby的区别:resample:在给定的时间单位内重取样groupby:对给定的数据条目进行统计函数原型:DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None
阅读全文
摘要:1.1图像无法显示中文的原因 matplotlib中无中文库 解决办法:每次编代码时加上 2、 散点图详解 x,y 形如shape(n,)的数组,可选值, s 点的大小(也就是面积)默认20 c 点的颜色或颜色序列,默认蓝色。其它如c = 'r' (red); c = 'g' (green); c
阅读全文
摘要:pd.Series(my_list) # 从一个可迭代的对象 my_list 中创建一个数据组df.index = pd.date_range('2017/1/1', periods=df.shape[0]) # 添加一个日期索引 indexdf.tail(n) # 查看数据框的最后n行df.set
阅读全文
摘要:通过python下的pandas库下的merge方法和concat方法来实现数据集的合并。 1.merge merge 函数通过一个或多个键来将数据集的行连接起来。该函数的主要 应用场景是针对同一个主键存在两张包含不同特征的表,通过该主键的连接,将两张表进行合并。合并之后,两张表的行数没有增加,列数
阅读全文
摘要:一、以下有两种方式可以创建一个Timestamp对象: 1. Timestamp()的构造方法 2. to_datetime()方法 datetime模块的对象有如下: timedelta date datetime time tzinfo 还包含以下两个常量: datetime.MINYEAR (
阅读全文
posted @ 2018-03-27 16:03
布尔先生
摘要:计算时间差,时间加减运算代码 最近在学习数据预处理,碰到日期型数据不会处理,上网查了下: Q:如何方便的计算两个时间的差,如两个时间相差几天,几小时等A:使用datetime模块可以很方便的解决这个问题,举例如下: import datetime d1 = datetime.datetime(200
阅读全文

浙公网安备 33010602011771号