摘要: # 十,使用数组进行文件输入和输出 # Numpy 可以将数据以【文本】或【二进制】的形式存入硬盘,或从硬盘载入。 # 由于大部分用户更倾向于使用pandas等其他工具来载入文本或表格型数据,因此,这里只讲 Numpy 的内建二进制格式。 # 10.1,np.save(),np.savez(),np 阅读全文
posted @ 2020-06-03 16:46 collin_pxy 阅读(114) 评论(0) 推荐(0)
摘要: Pandas 读取和存储数据 目录 读取 csv数据 读取 txt数据 存储 csv 和 txt 文件 读取和存储 json数据 读取和存储 excel数据 一道练习题 参考 Numpy基础(全) Pandas基础(全) 一,读取 CSV 文件: # 文字解析函数: # pd.read_csv() 阅读全文
posted @ 2020-06-03 16:44 collin_pxy 阅读(431) 评论(0) 推荐(0)
摘要: # 一,读取 CSV 文件: # 文字解析函数: # pd.read_csv() 从文件中加载带分隔符的数据,默认分隔符为逗号 # pd.read_table() 从文件中加载带分隔符的数据,默认分隔符为制表符 # read()_csv/read_table()参数: # path 文件路径,路径中 阅读全文
posted @ 2020-06-03 16:43 collin_pxy 阅读(382) 评论(0) 推荐(0)
摘要: # 数据清洗与整(全) # 1) 常见的数据清洗方法 # 2) 数据合并:多源数据的合并和连接 # 3) 数据重塑:针对层次化索引,学会 stack和 unstack # 4) 字符串处理:学会 DataFrame中字符串函数的使用 # 一,常见的数据清洗方法 # 1, 查看数据基本信息 # df. 阅读全文
posted @ 2020-06-03 16:41 collin_pxy 阅读(378) 评论(0) 推荐(0)
摘要: # 分组统计是数据分析中的重要环节: # 1-数据分组:GroupBy的原理和使用方法; # 2-聚合运算:学会分组数据的聚合运算方法和函数使用; 类似于 SQL思想 # 3-分组运算:重点 apply方法的使用 # 4-数据透视表:学会构建数据透视表和交叉表 # 一,GroupBy: # 步骤:s 阅读全文
posted @ 2020-06-03 16:40 collin_pxy 阅读(300) 评论(0) 推荐(0)
摘要: VBA处理数据与Python Pandas处理数据案例比较 Author : Collin_PXY 需求: 现有一个 csv文件,包含'CNUM'和'COMPANY'两列,数据里包含空行,且有内容重复的行数据。 要求: 1)去掉空行; 2)重复行数据只保留一行有效数据; 3)修改'COMPANY'列 阅读全文
posted @ 2020-06-03 16:37 collin_pxy 阅读(345) 评论(0) 推荐(0)
摘要: Python与VBA的比较2 需求: input文件中有两列数据,第一列为Name,第二列为Score,Name列里有重复的值,要求按照name的唯一值统计 score,输出到output文件按中。 1--用 Pandas解决: from pandas import DataFrame import 阅读全文
posted @ 2020-06-03 16:36 collin_pxy 阅读(311) 评论(0) 推荐(0)
摘要: Pandas与VBA筛选数据的比较 Author:Collin_PXY 需求: 将B列里值为Completed 和 Pending的A,B,D三列数据筛选出来,新建一个名为 Filited_data的worksheet来存放筛选数据。 Python解决: from pandas import Dat 阅读全文
posted @ 2020-06-03 16:34 collin_pxy 阅读(228) 评论(0) 推荐(0)
摘要: Header Mapping--应对 Report Headers 的变化 Author : Collin_PXY 背景 在 RPA工作中,稳定的规则非常重要,因为 RPA项目就是基于规则而进行的,但规则有时候也会发生变化,而且有时候这种变化是在开发阶段无法预料的,此时,对于我们已经在使用当中的 R 阅读全文
posted @ 2020-06-03 16:32 collin_pxy 阅读(305) 评论(0) 推荐(0)
摘要: # Pandas 知识点总结 # Pandas数据结构:Series 和 DataFrame import pandas as pd import numpy as np # 一,Series: # 1, 创建 Series pd.Series(列表或字典) s_obj = pd.Series([4 阅读全文
posted @ 2020-06-03 16:30 collin_pxy 阅读(215) 评论(0) 推荐(0)