11 2019 档案
摘要:# pandas的索引index的用途 # 把数据存储于普通的column列也能用于数据查询,那使用index有什么好处? # 1、更方便的数据查询 # 2、使用index可以获得性能提升 # 3、 自动的数据对其功能 # 4、更多强大的数据结构支持 import pandas as pd # 1
阅读全文
摘要:# pandas的axis参数怎样理解? # axis=0 或者 "index": # 如果是单行操作,就指的是某一行 # 如果是聚合操作,指的是跨行cross rows # axis=1 或者"columns" # 如果是单列操作,就指的是某一列 # 如果是聚合操作,指的是跨列cross colu
阅读全文
摘要:# pandas 字符串的处理 # 前面已经学习了字符串的处理函数 # df["bWendu"].str.replace("℃","").astype(int32) # pandas的字符串处理 # 1 : 使用方法:先获取seriea的str属性,然后在属性上调用函数 # 2 : 只能在字符串列上
阅读全文
摘要:# pandas数据排序 # series的排序: # Series.sort_values(ascending = True,inplace = False) # 参数说明: # ascending:默认为True升序排序,为False降序排序 # inplace : 是否修改原始的Series
阅读全文
摘要:# 0 读取数据 import pandas as pd df = pd.read_csv("beijing_tianqi_2018.csv") # 换掉温度后面的后缀 df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype("int
阅读全文
摘要:# Pandas对缺失值的处理(判断是否为空、删除or丢弃、填充空值) # pandas使用这些函数处理缺失值: # isnull 和 notnull :检验是否是空值,可用于series和df # dropna:丢弃、删除缺失值 # axis:删除行还是列,{0 or “index”,1 or “
阅读全文
摘要:# 1汇总类统计 # 2唯一去重和按值计数 # 3 相关系数和协方差 import pandas as pd # 0 读取csv数据 df = pd.read_csv("beijing_tianqi_2018.csv") df.head() # 换掉温度后面的后缀 df.loc[:,"bWendu"
阅读全文
摘要:# pandas新增数据列(直接赋值、apply、assign、分条件赋值) # pandas在进行数据分析时,经常需要按照一定条件创建新的数据列,然后进行进一步分析 # 1 直接赋值 # 2 df.apply方法 # 3 df.assig方法 # 4 按条件选择分组分别赋值 import pand
阅读全文
摘要:import pandas as pd # 0 读取数据 df = pd.read_csv("文件路径")#例子是北京一年的天气情况 df.head()#查看表头 # 设定索引为日期,方便按日期进行查询 df.set_index('ymd',inplace = True) print("df.ind
阅读全文
摘要:1、pandas数据的读取 pandas需要先读取表格类型的数据,然后进行分析 数据说明 说明 pandas读取方法 csv、tsv、txt 用逗号分割、tab分割的纯文本文件 pd.read_csv excel 微软xls或者xlsx文件 pd.read_excel mysql 关系向数据库表 p
阅读全文
摘要:1、数据 pc,hp.com pc,hp.com pc,hp.com pc,hp.com pc,hp.com pc,hp.com pc,hp.com pc,hp.com pc,hp.com pc,hp.com camera,hp.com camera,hp.com camera,hp.com cam
阅读全文
摘要:1、FM (因子分解机) 2、FM的作用: (1)特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接进行建模,很可能会忽略掉特征与特征之间的关联信息,因此,可以通过构建新的交叉特征这一特征组合方式提高模型的效果。 (2)高维的稀疏矩阵是实际工程过程中常见的问题,并直接回导致计算量过大,特征权
阅读全文
摘要:# 读取数据(最好使用 object 类型读取)读取的时候用object读取,防止有些数据读不了: data = pd.read_excel("朝阳医院2018年销售数据.xlsx", dtype="object") # 修改为 DataFrame 格式 dataDF = pd.DataFrame(
阅读全文