pandas 操作mysql详解

Pandas读写MySQL数据库

要实现 pandas 对 mysql 的读写需要三个库

  • pandas
  • sqlalchemy
  • pymysql

可能有的同学会问,单独用 pymysql 或 sqlalchemy 来读写数据库不香么,为什么要同时用三个库?主要是使用场景不同,个人觉得就大数据处理而言,用 pandas 读写数据库更加便捷。 

 

 1、read_sql 读取 mysql

  read_sql_query 或 read_sql 方法传入参数为 sql 语句,读取数据库后,返回内容是 dateframe 对象,read_sql 方法相当于 read_sql_query + read_sql_query,所以一般推荐 read_sql。普及一下:dateframe 其实也是一种数据结构,类似 excel 表格一样。

import pandas
from sqlalchemy import create_engine

class mysqlconn:
    def __init__(self):
        mysql_username = 'root'
        mysql_password = '123456'
        # 填写真实数库ip
        mysql_ip = 'x.x.x.x'
        port = 3306
        db = 'work'
        # 初始化数据库连接,使用pymysql库
        self.engine = create_engine('mysql+pymysql://{}:{}@{}:{}/{}'.format(mysql_username, mysql_password, mysql_ip, port,db))

    # 查询mysql数据库
    def query(self,sql):
        df  = pandas.read_sql(sql,self.engine)
        # df = pandas.read_sql_query(sql,self.engine)     这种读取方式也可以

        # 返回dateframe格式
        return df

if __name__ =='__main__':
    # 查询的 sql 语句 
    SQL = '''select * from working_time order by id desc '''
    # 调用 mysqlconn 类的 query() 方法
    df_data = mysqlconn().query(sql=SQL)

 

2、read_sql + ORM 读取 mysql

  如果不写sql语句,也可以通过 ORM(对象关系映射)读取,这种方式需要花点时间学习下 ORM 。例如查找 working 表中 name、nickname、department、groupName:

...
sql_orm = db.session.query(worktime.name,worktime.nickname,worktime.department,worktime.groupName).order_by(worktime.date.desc()).limit(5).statement
df_data = pandas.read_sql(sql = sql_orm,con = db.get_engine())
...

 

3、to_sql 写入数据库

使用 to_sql 方法写入数据库之前,先把数据转化成 dateframe 。 

import pandas
from sqlalchemy import create_engine

class mysqlconn:
    def __init__(self):
        mysql_username = 'root'
        mysql_password = '123456'
        # 填写真实数库ip
        mysql_ip = 'mysql.mall.svc.test.local'
        port = 3306
        db = 'work'
        # 初始化数据库连接,使用pymysql库
        self.engine = create_engine('mysql+pymysql://{}:{}@{}:{}/{}'.format(mysql_username, mysql_password, mysql_ip, port,db))

    # 查询mysql数据库
    def query(self,sql):
        df  = pandas.read_sql_query(sql,self.engine)
        # df = pandas.read_sql(sql,self.engine)

        # 返回dateframe格式
        return df

    # 写入mysql数据库
    def to_sql(self,table,df):
        # 第一个参数是表名
        # if_exists:有三个值 fail、replace、append
        # 1.fail:如果表存在,啥也不做
        # 2.replace:如果表存在,删了表,再建立一个新表,把数据插入
        # 3.append:如果表存在,把数据插入,如果表不存在创建一个表!!
        # index 是否储存index列
        df.to_sql(table, con=self.engine, if_exists='append', index=False)

if __name__ =='__main__':
    # 创建 dateframe 对象
    df = pandas.DataFrame([{'name':'小米','price':'3999','colour':'白色'},{'name':'华为','price':'4999','colour':'黑色'}])
    # 调用 mysqlconn 类的 to_sql() 方法
    mysqlconn().to_sql('phonetest',df)

插入数据库的数据:

 

posted @ 2021-03-26 10:04  三只松鼠  阅读(3428)  评论(0编辑  收藏  举报