pandas- - wang_yb - 博客园

【pandas基础】--数据读取

摘要：数据读取是第一步，只有成功加载数据之后，后续的操作才有可能。 pandas可以读取和导入各种数据格式的数据，如CSV，Excel，JSON，SQL，HTML等，不需要手动编写复杂的读取代码。 1. 各类数据源 pandas提供了导入各类常用文件格式数据的接口，这里介绍3种最常用的加载数据的接口。 1 阅读全文

posted @ 2023-05-04 16:52 wang_yb 阅读(2032) 评论(0) 推荐(3)

【pandas基础】--核心数据结构

摘要：pandas中用来承载数据的两个最重要的结构分别是： Series：相当于增强版的一维数组 DataFrame：相当于增强版的二维数组 pandas最大的优势在于处理表格类数据，如果数据维度超过二维，一般我们会使用另一个 python的库 numpy。本篇主要介绍这两种核心数据结构的创建方式。 1 阅读全文

posted @ 2023-05-07 21:46 wang_yb 阅读(1237) 评论(0) 推荐(1)

【pandas基础】--数据检索

摘要：pandas的数据检索功能是其最基础也是最重要的功能之一。 pandas中最常用的几种数据过滤方式如下：行列过滤：选取指定的行或者列条件过滤：对列的数据设置过滤条件函数过滤：通过函数设置更加复杂的过滤条件本篇所有示例所使用的测试数据如下： import pandas as pd import 阅读全文

posted @ 2023-05-10 16:53 wang_yb 阅读(1386) 评论(0) 推荐(1)

【pandas基础】--数据整理

摘要：pandas进行数据整理的意义在于，它是数据分析、数据科学和机器学习的前置步骤。通过数据整理可以提前了解数据的概要，缺失值、重复值等情况，为后续的分析和建模提供更为可靠的数据基础。本篇主要介绍利用pandas进行数据整理的各种方法。 1. 数据概要获取数据概要信息可以帮助我们了解数据的基本情况阅读全文

posted @ 2023-05-14 10:56 wang_yb 阅读(866) 评论(2) 推荐(1)

【pandas基础】--数据修改

摘要：pandas 作为一种常用的数据分析工具，提供了广泛的数据修改方法。既可以针对行或者列的数据进行修改，也可以对具体单个元素进行修改，还可以基于条件选择要修改的行或者列的数据。 1. 增加数据 1.1 增加行数据 pandas的DataFrame增加一行或者多行数据之前是使用append方法。 im 阅读全文

posted @ 2023-05-16 16:43 wang_yb 阅读(1638) 评论(0) 推荐(0)

【pandas基础】--数据拆分与合并

摘要：数据集拆分是将一个大型的数据集拆分为多个较小的数据集，可以让数据更加清晰易懂，也方便对单个数据集进行分析和处理。同时，分开的数据集也可以分别应用不同的数据分析方法进行处理，更加高效和专业。数据集合并则是将多个数据集合并成一个大的数据集，可以提供更全面的信息，也可以进行更综合的数据分析。同时，数阅读全文

posted @ 2023-05-18 13:22 wang_yb 阅读(1583) 评论(0) 推荐(0)

【pandas基础】--数据排序

摘要：pandas的数据排序可以帮助我们更好地理解和分析数据。通过对数据进行排序，我们可以提取出特定的信息，例如最大值、最小值、中位数、众数等等，从而更准确地识别数据的特征和特点。此外，数据排序还可以帮助我们更好地进行数据可视化，例如绘制直方图、箱线图等等，进一步帮助我们对数据进行解读和分析。总之，阅读全文

posted @ 2023-05-22 09:42 wang_yb 阅读(1198) 评论(0) 推荐(0)

【pandas基础】--数据类型

摘要：数据类型是计算机编程中将不同类型的数据值分类和定义的方式。通过数据类型，可以确定数据的存储方式和内存占用量，了解不同类型的数据进行各种运算的能力。使用pandas进行数据分析时，最常用到的几种类型是：字符串类型，各类文本内容都是字符串类型数值类型，包括整数和浮点数，可用于计算日期类型，日期阅读全文

posted @ 2023-05-27 13:52 wang_yb 阅读(1863) 评论(0) 推荐(0)

【pandas基础】--日期处理

摘要：时间序列数据是数据分析中一类常见且重要的数据。它们按照时间顺序记录，通常是从某些现象的观察中收集的，比如经济指标、气象数据、股票价格、销售数据等等。时间序列数据的特点是有规律地随着时间变化而变化，它们的变化趋势可以被分析和预测。时间序列分析是一种用于预测未来值或评估过去值的统计方法，常常被用于预阅读全文

posted @ 2023-06-02 15:14 wang_yb 阅读(1027) 评论(0) 推荐(0)

【pandas基础】--索引和轴

摘要：在pandas中，索引（index）是用于访问数据的关键。它为数据提供了基于标签的访问能力，类似于字典，可以根据标签查找和访问数据。而pandas的轴（axis）是指数据表中的一个维度，可以理解为表格中的行和列。通过指定轴，我们可以对数据进行切片、筛选、聚合等操作。下面简要介绍pandas的阅读全文

posted @ 2023-06-04 21:19 wang_yb 阅读(1171) 评论(0) 推荐(0)

【pandas基础】--数据统计

摘要：在进行统计分析时，pandas提供了多种工具来帮助我们理解数据。 pandas提供了多个聚合函数，其中包括均值、标准差、最大值、最小值等等。此外，pandas还可以进行基于列的统计分析，例如通过groupby()函数对数据进行聚合，并计算每组的统计分析结果。除了基本的统计分析之外，pandas还阅读全文

posted @ 2023-06-07 13:21 wang_yb 阅读(1219) 评论(0) 推荐(0)

【pandas小技巧】--创建测试数据

摘要：学习pandas的过程中，为了尝试pandas提供的各类功能强大的函数，常常需要花费很多时间去创造测试数据。在pandas中，快速创建测试数据可以更快的评估 pandas 函数。通过生成一组测试数据，可以评估例如 read_csv、read_excel、groupby等函数，以确保这些函数在处理不阅读全文

posted @ 2023-07-14 09:04 wang_yb 阅读(836) 评论(0) 推荐(0)

【pandas小技巧】--读取多个文件

摘要：日常分析数据时，只有单一数据文件的情况其实很少见，更多的情况是，我们从同一个数据来源定期或不定期的采集了很多数据文件；或者从不同的数据源采集多种不同格式的数据文件。在这样的情况下，分析数据之前，需要将不同的数据集合并起来。合并数据一般有两个维度，一是同构的数据集合并后行数增加；一是异构的数据集合并阅读全文

posted @ 2023-07-19 21:57 wang_yb 阅读(859) 评论(0) 推荐(0)

【pandas小技巧】--反转行列顺序

摘要：反转pandas DataFrame的行列顺序是一种非常实用的操作。在实际应用中，当我们需要对数据进行排列或者排序时，通常会使用到Pandas的行列反转功能。这个过程可以帮助我们更好地理解数据集，发现其中的规律和趋势。同时，行列反转还可以帮助我们将数据可视化，使得图表更加易于理解。除了常规的数据分阅读全文

posted @ 2023-08-02 16:06 wang_yb 阅读(2396) 评论(0) 推荐(1)

【pandas小技巧】--修改列的名称

摘要：重命名 pandas 数据中列的名称是一种常见的数据预处理任务。这通常是因为原始数据中的列名称可能不够清晰或准确。例如，列名可能包含空格、大写字母、特殊字符或拼写错误。使用 pandas 的 rename函数可以帮助我们更改列名，从而使数据更加清晰和易于理解。此外，重命名列名还可以确保您的代码在维阅读全文

posted @ 2023-07-31 15:54 wang_yb 阅读(1913) 评论(0) 推荐(0)

【pandas小技巧】--按类型选择列

摘要：本篇介绍的是pandas选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式，比如loc，iloc函数，按列名称选择，按条件选择等等。这次介绍的是按照列的数据类型来选择列，按类型选择列可以帮助你快速选择正确的数据类型，提高数据分析的效率。 1. 类型种类 pandas列的数据类型主要有4大种阅读全文

posted @ 2023-07-30 10:59 wang_yb 阅读(1095) 评论(0) 推荐(1)

【pandas小技巧】--随机挑选子集

摘要：在 pandas 中，如果遇到数据量特别大的情况，随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据，从而更好地进行数据分析和决策。随机挑选子集的用途主要有：评估数据质量：随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量，以便进一步探索和挖掘数据。例如，我们可以通过阅读全文

posted @ 2023-07-26 10:38 wang_yb 阅读(565) 评论(4) 推荐(0)

【pandas小技巧】--category类型补充

摘要：category类型在pandas基础系列中有一篇介绍数据类型的文章中已经介绍过。category类型并不是python中的类型，是pandas特有的类型。 category类型的优势那篇文章已经介绍过，当时只是介绍了如何将某个列的数据转换成category类型，以及转换之后给程序性能上带来的好处。阅读全文

posted @ 2023-08-21 09:25 wang_yb 阅读(1101) 评论(2) 推荐(0)

【pandas小技巧】--统计值作为新列

摘要：这次介绍的小技巧不是统计，而是把统计结果作为新列和原来的数据放在一起。pandas的各种统计功能之前已经介绍了不少，但是每次都是统计结果归统计结果，原始数据归原始数据，没有把它们合并在一个数据集中来观察。下面通过两个场景示例来演示如果把统计值作为新列的数据。 1. 成绩统计的场景成绩统计及其类似阅读全文

posted @ 2023-08-18 10:17 wang_yb 阅读(1103) 评论(0) 推荐(0)

【pandas小技巧】--数据转置

摘要：所谓数据转置，就是是将原始数据表格沿着对角线翻折，使原来的行变成新的列，原来的列变成新的行，从而更方便地进行数据分析和处理。 pandas中DataFrame的转置非常简单，每个DataFrame对象都有一个T属性，通过这个属性就能得到转置之后的DataFrame。下面介绍几个数据转置常用的场景，感阅读全文

posted @ 2023-08-16 09:22 wang_yb 阅读(1604) 评论(0) 推荐(0)

【pandas小技巧】--日期相关处理

摘要：日期处理相关内容之前pandas基础系列中有一篇专门介绍过，本篇补充两个常用的技巧。 1. 多列合并为日期当收集来的数据中，年月日等信息分散在多个列时，往往需要先合并成日期类型，然后才能做分析处理。合并多列转换为日期类型，可以直接用 to_datetime函数来处理： import pandas 阅读全文

posted @ 2023-08-14 10:46 wang_yb 阅读(1159) 评论(5) 推荐(0)

【pandas小技巧】--列值的映射

摘要：映射列值是指将一个列中的某些特定值映射为另外一些值，常用于数据清洗和转换。使用映射列值的场景有很多，以下是几种常见的场景：将字符串类型的列中的某些值映射为数字。例如，将“男”和“女”分别映射为 0 和 1，以便进行机器学习算法的训练和预测。将缩写替换为全称。例如，将“USA”和“UK”分别替换阅读全文

posted @ 2023-08-10 12:22 wang_yb 阅读(1296) 评论(0) 推荐(0)

【pandas小技巧】--字符串转数值

摘要：字符串转数字的用途和场景很多，其中主要包括以下几个方面：数据清洗：在进行数据处理时，经常会遇到一些数据类型不匹配的问题，比如某些列中的字符串类型被误认为是数字类型，此时需要将这些字符串类型转换为数字类型，才能进行后续的数值计算或统计分析。数据整理：有时候输入的原始数据可能存在格式问题，例如有些数阅读全文

posted @ 2023-08-09 08:59 wang_yb 阅读(2962) 评论(2) 推荐(2)

【pandas小技巧】--缺失值的列

摘要：在实际应用中，数据集中经常会存在缺失值，也就是某些数据项的值并未填充或者填充不完整。缺失值的存在可能会对后续的数据分析和建模产生影响，因此需要进行处理。 pandas提供了多种方法来处理缺失值，例如删除缺失值、填充缺失值等。删除缺失值可能会导致数据量减少，填充缺失值则能够尽量保留原始数据集的完整性，阅读全文

posted @ 2023-08-07 09:37 wang_yb 阅读(1180) 评论(4) 推荐(0)

【pandas小技巧】--拆分列

摘要：拆分列是pandas中常用的一种数据操作，它可以将一个包含多个值的列按照指定的规则拆分成多个新列，方便进行后续的分析和处理。拆分列的使用场景比较广泛，以下是一些常见的应用场景：处理日期数据：在日期数据中，经常会将年、月、日等信息合并成一列，通过拆分列可以将其拆分成多个新列，方便进行时间序列分析。阅读全文

posted @ 2023-08-03 09:55 wang_yb 阅读(2436) 评论(0) 推荐(1)

【pandas小技巧】--花哨的DataFrame

摘要：最近github上发现了一个库（plottable），可以用简单的方式就设置出花哨的 DataFrame 样式。 github上的地址：https://github.com/znstrider/plottable 1. 安装通过 pip 安装： pip install plottable 2. 行阅读全文

posted @ 2023-08-27 16:51 wang_yb 阅读(1166) 评论(0) 推荐(1)

【pandas小技巧】--DataFrame的显示样式

摘要：上一篇介绍了DataFrame的显示参数，主要是对DataFrame中值进行调整。本篇介绍DataFrame的显示样式的调整，显示样式主要是对表格本身的调整，比如颜色，通过颜色可以突出显示重要的值，观察数据时可以更加高效的获取主要信息。下面介绍一些针对单个数据和批量数据的样式调整方式，让Data 阅读全文

posted @ 2023-08-25 09:27 wang_yb 阅读(1771) 评论(0) 推荐(0)

【pandas小技巧】--DataFrame的显示参数

摘要：我们在jupyter notebook中使用pandas显示DataFrame的数据时，由于屏幕大小，或者数据量大小的原因，常常会觉得显示出来的表格不是特别符合预期。这时，就需要调整pandas显示DataFrame的方式。pandas为我们提供了很多调整显示方式的参数，具体参见文末附录中的链接。阅读全文

posted @ 2023-08-23 10:27 wang_yb 阅读(1636) 评论(1) 推荐(0)

pandas高效读取大文件的探索之路

摘要：使用 pandas 进行数据分析时，第一步就是读取文件。在平时学习和练习的过程中，用到的数据量不会太大，所以读取文件的步骤往往会被我们忽视。然而，在实际场景中，面对十万，百万级别的数据量是家常便饭，即使千万，上亿级别的数据，单机处理也问题不大。不过，当数据量和数据属性多了之后，读取文件的性能瓶颈就阅读全文

posted @ 2024-01-29 09:21 wang_yb 阅读(4505) 评论(1) 推荐(3)

分组聚合不再难：Pandas groupby使用指南

摘要：处理大量数据时，经常需要对数据进行分组和汇总，groupby为我们提供了一种简洁、高效的方式来实现这些操作，从而简化了数据分析的流程。 1. 分组聚合是什么分组是指根据一个或多个列的值将数据分成多个组，每个组包含具有相同键值（这里的键值即用来分组的列值）的数据行。聚合或者汇总则是指，在分组后，可阅读全文

posted @ 2024-03-05 15:40 wang_yb 阅读(3629) 评论(0) 推荐(2)

别再低效筛选数据了！试试pandas query函数

摘要：数据过滤在数据分析过程中具有极其重要的地位，因为在真实世界的数据集中，往往存在重复、缺失或异常的数据。pandas提供的数据过滤功能可以帮助我们轻松地识别和处理这些问题数据，从而确保数据的质量和准确性。今天介绍的query函数，为我们提供了强大灵活的数据过滤方式，有助于从复杂的数据集中提取有价值的阅读全文

posted @ 2024-03-04 20:07 wang_yb 阅读(1848) 评论(0) 推荐(2)

掌握pandas cut函数，一键实现数据分类

摘要：pandas中的cut函数可将一维数据按照给定的区间进行分组，并为每个值分配对应的标签。其主要功能是将连续的数值数据转化为离散的分组数据，方便进行分析和统计。 1. 数据准备下面的示例中使用的数据采集自王者荣耀比赛的统计数据。数据下载地址：https://databook.top/。导入数据：阅读全文

posted @ 2024-03-06 13:38 wang_yb 阅读(673) 评论(0) 推荐(1)

pandas plot函数：数据可视化的快捷通道

摘要：一般来说，我们先用pandas分析数据，然后用matplotlib之类的可视化库来显示分析结果。而pandas库中有一个强大的工具--plot函数，可以使数据可视化变得简单而高效。 1. plot 函数简介 plot函数是pandas中用于数据可视化的一个重要工具，通过plot函数，可以轻松地将Da 阅读全文

posted @ 2024-03-08 17:11 wang_yb 阅读(582) 评论(0) 推荐(1)

Pandas导出美化技巧，让你的Excel更出众

摘要：pandas的DataFrame可以通过设置参数使得在jupyter notebook中显示的更加美观，但是，将DataFrame的数据导出excel时，却只能以默认最朴素的方式将数据写入excel。本文介绍一种简单易用，让导出的excel更加美观的方法。 1. 概要首先，引入一个库StyleF 阅读全文

posted @ 2024-03-13 16:15 wang_yb 阅读(3457) 评论(2) 推荐(1)

pandas DataFrame内存优化技巧：让数据处理更高效

摘要：Pandas无疑是我们数据分析时一个不可或缺的工具，它以其强大的数据处理能力、灵活的数据结构以及易于上手的API赢得了广大数据分析师和机器学习工程师的喜爱。然而，随着数据量的不断增长，如何高效、合理地管理内存，确保Pandas DataFrame在运行时不会因内存不足而崩溃，成为我们每一个人必须面阅读全文

posted @ 2024-03-14 13:25 wang_yb 阅读(1677) 评论(0) 推荐(0)

pandas：如何保存数据比较好？

摘要：我们在使用pandas处理完数据之后，最终总是要把数据作为一个文件保存下来，那么，保存数据最常用的文件是什么呢？我想大部分人一定会选择csv或者excel。刚接触数据分析时，我也是这么选择的，不过，今天将介绍几种不一样的存储数据的文件格式。这些文件格式各有自己的一些优点，希望本文能让你以后的数据存阅读全文

posted @ 2024-03-15 13:31 wang_yb 阅读(2739) 评论(1) 推荐(0)

Pandas：如何让你的代码性能飙升

摘要：在数据分析相关的工作中，Pandas无疑是一个强大的工具，它的易用性和灵活性广受青睐。然而，随着数据量的不断增长和计算需求的日益复杂，Pandas代码的性能问题也逐渐浮出水面。如何让Pandas代码运行得更快、更高效，成为了每一个人使用者都需要面对的挑战。今天，本文就一个简化版的实际分析案例，来一阅读全文

posted @ 2024-03-18 18:06 wang_yb 阅读(1196) 评论(0) 推荐(1)

借助Numpy，优化Pandas的条件检索代码

摘要：Numpy其实是最早的处理数据的Python库，它的核心ndarray对象，是一个高效的n维数组结构。通过这个库，可以高效的完成向量和矩阵运算，由于其出色的性能，很多其他的数据分析，科学计算或者机器学习相关的Python库都或多或少的依赖于它。 Pandas就是其中之一，Pandas充分利用了Nu 阅读全文

posted @ 2024-03-21 14:17 wang_yb 阅读(890) 评论(0) 推荐(1)

最近常用的几个【行操作】的Pandas函数

摘要：theme: smartblue 最近在做交易数据的统计分析时，多次用到数据行之间的一些操作，对于其中的细节，简单做了个笔记。 1. shfit函数 shift函数在策略回测代码中经常出现，计算交易信号，持仓信号以及资金曲线时都有涉及。这个函数的主要作用是将某列的值上下移动。默认情况下，shift函阅读全文

posted @ 2024-04-28 13:46 wang_yb 阅读(1017) 评论(0) 推荐(0)

pandas：时间序列数据的周期转换

摘要：时间序列数据是数据分析中经常遇到的类型，为了更多的挖掘出数据内部的信息，我们常常依据原始数据中的时间周期，将其转换成不同跨度的周期，然后再看数据是否会在新的周期上产生新的特性。下面以模拟的K线数据为例，演示如何使用pandas来进行周期转换。 1. 创建测试数据首先创建测试数据，下面创建一天的K 阅读全文

posted @ 2024-04-30 17:25 wang_yb 阅读(1076) 评论(2) 推荐(0)

别急着转投 Polars！Pandas 3.0 带着“黑科技”杀回来了

摘要：大家好，在数据分析圈子里摸爬滚打这么多年，最近大家见面打招呼的方式都变了。以前是“你用 Pandas 处理那个 csv 了吗？”，现在变成了“你还没用 Polars 吗？那速度快得飞起！” 确实，在这个 GPU 算力爆炸、多线程并行的时代，我们这位陪伴多年的老朋友 Pandas，因为单线程和内存管阅读全文

posted @ 2025-11-22 18:21 wang_yb 阅读(2030) 评论(1) 推荐(1)

理论都会，实战就废？7个分析模板，帮你打通任督二脉

摘要：

数据分析和编程一样，是有模式的。其实大部分业务分析题，扒开外壳看内核，就那7个套路。你遇到的那些所谓“新问题”，90%都能套进下面这7个框架。不管你是在字节、阿里、拼多多，还是一个小创业公司做增长--数据就是数据，逻辑永远不会骗你。 🎯 模式1：连接+筛选 = 精准找人找事业务场景：春运期阅读全文

posted @ 2026-04-07 14:32 wang_yb 阅读(255) 评论(1) 推荐(1)

千里之行，始于足下

合集-pandas

公告