随笔分类 - pandas
摘要:报错:IllegalCharacterError 其原因是字段中包含了unicode字符。 解决方案:
阅读全文
摘要:如何将表格数据以图片的形式展现,主要目的则是为了防止爬虫。 为了解决这个问题,刚开始选择的是matplotlib.pyplot.table,但由于随着数据的字段长短不一,且matplotlib实际落地的过程中存在许许多多的坑,最终还是没有采用。 目前的解决方案: 1. 生成html table代码
阅读全文
摘要:实例: 若表不存在,创建字段都是text,bigint等 df.to_sql参数介绍: name:string SQL表的名称。 con:sqlalchemy.engine.Engine或sqlite3.Connection 使用SQLAlchemy可以使用该库支持的任何数据库。为sqlite3.C
阅读全文
摘要:轮询有一个挺好的方式,df.iterrows() 这个函数同时返回 索引和行对象的生成器可以直接进行遍历。
阅读全文
摘要:在已知id索引的情况下,如何获取所需要的行呢?已经不止一次遇到这样的情况,经历过重重筛选,所得到的最终结果是一串满足所有条件的id列表。 pandas 的isin 能很好的解决这个问题,
阅读全文
摘要:df.drop_duplicates(subset=None, keep='first', inplace=False) 1 data.drop_duplicates()#data中一行元素全部相同时才去除 2 data.drop_duplicates(['a','b'])#data根据’a','b
阅读全文
摘要:读取大文件(内存有限): import pandas as pd reader = pd.read_csv("tap_fun_test.csv", sep=',', iterator=True) loop = True chunkSize = 100000 chunks = [] while loo
阅读全文
摘要:merge pandas的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。 merge的参数 on:列名,join用来对齐的那一列的名字,用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。 how:数据融合的方法
阅读全文

浙公网安备 33010602011771号