python 操作csv

import pandas as pd
import csv
for i in range(1,178):  # 爬取全部页


    tb = pd.read_html('http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%s' % (str(i)))[3] 

    tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0)






import requests
import pandas as pd
from bs4 import BeautifulSoup
from lxml import etree
import time
import pymysql
from sqlalchemy import create_engine
from urllib.parse import urlencode  # 编码 URL 字符串

start_time = time.time()  #计算程序运行时间
def get_one_page(i):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
        }
        paras = {
        'reportTime': '2017-12-31',
        #可以改报告日期，比如2018-6-30获得的就是该季度的信息
        'pageNum': i   #页码
        }
        url = 'http://s.askci.com/stock/a/?' + urlencode(paras)
        response = requests.get(url,headers = headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('爬取失败')




def parse_one_page(html):
    soup = BeautifulSoup(html,'lxml')
    content = soup.select('#myTable04')[0] #[0]将返回的list改为bs4类型
    tbl = pd.read_html(content.prettify(),header = 0)[0]
    # prettify()优化代码,[0]从pd.read_html返回的list中提取出DataFrame

    tbl.rename(columns = {'序号':'serial_number', '股票代码':'stock_code', '股票简称':'stock_abbre', '公司名称':'company_name', '省份':'province', '城市':'city', '主营业务收入(201712)':'main_bussiness_income', '净利润(201712)':'net_profit', '员工人数':'employees', '上市日期':'listing_date', '招股书':'zhaogushu', '公司财报':'financial_report', '行业分类':'industry_classification', '产品类型':'industry_type', '主营业务':'main_business'},inplace = True)
    return tbl



#创建数据库表
def generate_mysql():
    conn = pymysql.connect(
        host='localhost',
        user='root',
        password='',
        port=3306,
        charset = 'utf8',  
        db = 'wade')
    cursor = conn.cursor()

    sql = 'CREATE TABLE IF NOT EXISTS listed_company (serial_number INT(20) NOT NULL,stock_code INT(20) ,stock_abbre VARCHAR(20) ,company_name VARCHAR(20) ,province VARCHAR(20) ,city VARCHAR(20) ,main_bussiness_income VARCHAR(20) ,net_profit VARCHAR(20) ,employees INT(20) ,listing_date DATETIME(0) ,zhaogushu VARCHAR(20) ,financial_report VARCHAR(20) , industry_classification VARCHAR(20) ,industry_type VARCHAR(100) ,main_business VARCHAR(200) ,PRIMARY KEY (serial_number))'
    cursor.execute(sql)
    conn.close()



#写入数据库
def write_to_sql(tbl, db = 'wade'):
    engine = create_engine('mysql+pymysql://root:@localhost:3306/{0}?charset=utf8'.format(db))
    try:
        tbl.to_sql('listed_company2',con = engine,if_exists='append',index=False)
        # append表示在原有表基础上增加，但该表要有表头


    except Exception as e:
        print(e)

def main(page):
    generate_mysql()
    for i in range(1,page):  
        html = get_one_page(i)
        tbl = parse_one_page(html)
        write_to_sql(tbl)

# # 单进程
if __name__ == '__main__':    
    main(178)
    endtime = time.time()-start_time
    print('程序运行了%.2f秒' %endtime)

# 多进程
from multiprocessing import Pool
if __name__ == '__main__':
     pool = Pool(4)
     pool.map(main, [i for i in range(1,178)])  #共有178页
    endtime = time.time()-start_time
    print('程序运行了%.2f秒' %(time.time()-start_time))

为爬取网页表格数据，较容想到的常规方式是通过requests请求以及lxml解析定位获取元素，

此外还可以通过pandas库的read_html直接获取表格数据，得到的将是目标网页所有table表格的list集合

requests请求+lxml解析+xpath定位

from lxml import etree
import pandas as pd 
from pandas import DataFrame
import time
import requests
import random

def pagedataget(html):
    items=html.xpath('//*[@class="timeborder"]')
    compname=[];publish_date=[];ssdbk=[];pubtype=[];pubinfo=[]
    for item in items :
        name=str(item.xpath('./td/text()')[0]).replace('\r','').replace('\n','').replace('\t','')
        name=''.join(name.split())  
        if name:
            compname.append(name)
        date=str(item.xpath('./td/text()')[1]).replace('\r','').replace('\n','').replace('\t','')
        publish_date.append(date)
        sb=str(item.xpath('./td/text()')[2]).replace('\r','').replace('\n','').replace('\t','')
        ssdbk.append(sb)
        pt=str(item.xpath('./td/text()')[3]).replace('\r','').replace('\n','').replace('\t','')
        pubtype.append(pt)
        pinf=item.xpath('./td/a/text()')
        if len(pinf)==2:
            pinf=str(pinf[0]).replace('\r','').replace('\n','').replace('\t','')+'、'+str(pinf[1]).replace('\r','').replace('\n','').replace('\t','')
        else:
            pinf=str(pinf[0]).replace('\r','').replace('\n','').replace('\t','')
        pubinfo.append(pinf)       
    ipopub=pd.concat([DataFrame(compname),DataFrame(publish_date),DataFrame(ssdbk),DataFrame(pubtype),DataFrame(pubinfo)],axis=1)
    ipopub.columns=['compname','publish_date','ssdbk','pubtype','pubinfo']
    return ipopub
if __name__ == '__main__':
    start = time.time()
    user_agent_list = ["Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
                    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
                    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:60.0) Gecko/20100101 Firefox/61.0",
                    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
                    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36"]
    header={'User-Agent':'Mozilla/5.0'}
    ipopub=DataFrame(data=None,columns=['compname','publish_date','ssdbk','pubtype','pubinfo'])
    for i in range(1,199):
        header['User-Agent'] = random.choice(user_agent_list)
        pageurl='http://eid.csrc.gov.cn/ipo/infoDisplay.action?pageNo='+str(i)+'&temp=&temp1=&blockType=byTime'
        header['User-Agent'] = random.choice(user_agent_list)
        tx=requests.get(pageurl,headers=header)
        tx.encoding=tx.apparent_encoding
        html = etree.HTML(tx.text)
        ipopub=pd.concat([ipopub,pagedataget(html)])  
    ipopub.index=range(0len(ipopub)+1)
    end = time.time()
    print ('一共有',len(ipopub),'家公司，'+'运行时间为',(end-start)/60,'分钟')

pd.read_html 版本

import time
start = time.time()
import pandas as pd
from pandas import DataFrame

pubtable=DataFrame(data=None,columns=['compname','publish_date','ssdbk','pubtype','pubinfo'])

for i in range(1,199): 
    url ='http://eid.csrc.gov.cn/ipo/infoDisplay.action?pageNo='+str(i)+'&temp=&temp1=&blockType=byTime'
    data = pd.read_html(url,header=0,encoding='utf-8')[2] 
    pub = data.iloc[0:len(data)-1,0:-1]
    pub.columns=['compname','publish_date','ssdbk','pubtype','pubinfo']
    pubtable=pd.concat([pubtable,pub])  
end = time.time()
print ('一共有',len(pubtable),'家公司，'+'运行时间为',(end-start)/60,'分钟')

pandas+create_engine：连接数据库，返回DataFrame类型的结果

导包

from sqlalchemy import create_engine
import pandas as pd

连接

获取连接引擎engine

engine = create_engine('mysql+pymysql://root:dong@localhost:3306/stu?charset=utf8')

sql语句

sql = 'select * from student'
sql = 'select name,sum(year(age)) as 年龄和 from student'

查询

pd.read_sql_query(sql,engine)

返回值类型：pandas.core.frame.DataFrame

engine = create_engine('dialect+driver://username:password@host:port/database')

dialect -- 数据库类型

driver -- 数据库驱动选择

username -- 数据库用户名

password -- 用户密码

host 服务器地址

port 端口

database 数据库

mysql-python

engine = create_engine('mysql+mysqldb://scott:tiger@localhost/foo')

MySQL-connector-python

engine = create_engine('mysql+mysqlconnector://scott:tiger@localhost/foo')

Oracle

create_engine('oracle://scott:tiger@127.0.0.1:1521/sidname')

from sqlalchemy import create_engine, Table, Column, Integer, /
String, MetaData, ForeignKey
import MySQLdb
#创建数据库连接
engine = create_engine("mysql+mysqldb://liuyao:liuyao@121.42.195.15:3306/liuyao", max_overflow=5)
# 获取元数据
metadata = MetaData()
# 定义表
user = Table('user', metadata,
    Column('id', Integer, primary_key=True),
    Column('name', String(20)),
    )
 
color = Table('color', metadata,
    Column('id', Integer, primary_key=True),
    Column('name', String(20)),
    )
#将dataframe 添加到 tmp_formidinfo 如果表存在就添加，不存在创建并添加 
pd.io.sql.to_sql(DataResultDF,'tmp_formidinfo',engine, schema='liuyao', if_exists='append')                
 
# 执行sql语句
engine.execute(
    "INSERT INTO liuyao.color(id, name) VALUES ('1', 'liuyao');"
)
result = engine.execute('select * from color')
print(result.fetchall())

python连接数据库——create_engine和conn.cursor

python操作数据库的方法：

一种是导入sqlalchemy包，另一种是导入psycopg2包。

具体用法如下（此处以postgre数据库举例）

第一种：

# 导入包
from sqlalchemy import create_engine
import pandas as pd
from string import Template

# 初始化引擎
engine = create_engine('postgresql+psycopg2://' + pg_username + ':' + pg_password + '@' + pg_host + ':' + str(
    pg_port) + '/' + pg_database)
query_sql = """
      select * from $arg1
      """
query_sql = Template(query_sql) # template方法

df = pd.read_sql_query(query_sql .substitute(arg1=tablename),engine) # 配合pandas的方法读取数据库值

# 配合pandas的to_sql方法使用十分方便（dataframe对象直接入库）

df.to_sql(table, engine, if_exists='replace', index=False) #覆盖入库
df.to_sql(table, engine, if_exists='append', index=False)  #增量入库

第二种方法，与jdbc使用极为相似


# 导入包
import psycopg2


# 初始化
conn = psycopg2.connect(database = database, user = username, password = passwd, host = host, port = port)
cursor = conn.cursor()

# 执行sql
cursor.execute(sql, values)  # 与jdbc的prepareStatement极为类似，执行的是一个具体的sql语句。
cursor也能调存储过程，并且获取返回值。

1、csv的写

python自带了csv模块提供用户对csv文件进行读写操作，要对csv文件进行写操作，首先要创建一个writer对象,参考help(csv.writer)，情况如下

调用writer对象的前提是：需要传入一个文件对象，然后才能在这个文件对象的基础上调用csv的写入方法writerow（写入一行）writerrow（写入多行）。写入数据的代码如下:

import csv

headers = ['class','name','sex','height','year']

rows = [
        [1,'xiaoming','male',168,23],
        [1,'xiaohong','female',162,22],
        [2,'xiaozhang','female',163,21],
        [2,'xiaoli','male',158,21]
    ]

with open('test.csv','w')as f:
    f_csv = csv.writer(f)
    f_csv.writerow(headers)
    f_csv.writerows(rows)

首先定义了写入csv文件的表头、每一列的内容，然后打开一个csv文件，将文件对象作为参数传给csv.writer()，最后将表头和每一行的内容写入到csv文件中。

注意：如果打开csv文件出现空行的情况，那么需要添加一个参数 newline=”（我使用windows出现了这种情况，使用linux mint没有出现）

with open('test.csv','w',newline='')as f:

2、写入字典序列的数据

在写入字典序列类型数据的时候，需要传入两个参数，一个是文件对象——f，一个是字段名称——fieldnames.

到时候要写入表头的时候，只需要调用writerheader方法，写入一行字典系列数据调用writerrow方法，并传入相应字典参数，写入多行调用writerows
具体代码如下:

import csv

headers = ['class','name','sex','height','year']

rows = [
        {'class':1,'name':'xiaoming','sex':'male','height':168,'year':23},
        {'class':1,'name':'xiaohong','sex':'female','height':162,'year':22},
        {'class':2,'name':'xiaozhang','sex':'female','height':163,'year':21},
        {'class':2,'name':'xiaoli','sex':'male','height':158,'year':21},
    ]

with open('test2.csv','w',newline='')as f:
    f_csv = csv.DictWriter(f,headers)
    f_csv.writeheader()
    f_csv.writerows(rows)

3、csv文件的读

读取csv时需要使用reader，并传如一个文件对象，而且reader返回的是一个可迭代的对象，需要使用for循环遍历，代码如下：

import csv
with open('test.csv')as f:
    f_csv = csv.reader(f)
    for row in f_csv:
        print(row)

在上面，row是一个列表，如果想要查看固定的某列，则需要加上下标，例如我想要查看name，那么只需要改为row[1]

import csv
with open('test.csv')as f:
    f_csv = csv.reader(f)
    for row in f_csv:
        print(row[1])

import os
import csv
 
path = "5255_1"
# "newline="就是说因为我们的csv文件的类型，如果不加这个东西，当我们写入东西的时候，就会出现空行
out = open("test.csv","w",newline='')

# 定义一个变量进行写入，两个参数
csv_write = csv.writer(out,dialect='excel')
 
for root,dirs,files in os.walk(path): #root是根文件夹，dirs是该根文件夹下的文件夹，files是该根文件夹下的文件
    content=[]
    content.append(root)
    content.append(len(files))
    print(content)
    # 数据写入
    csv_write.writerow(content)

1、引入模块

1 import os    #获取当前工作路径
2 import pandas as pd   #将数据保存至相应文件中

2、将数据保存至制定文件下

1 file = os.getcwd() + '\\1.csv'    #保存文件位置，即当前工作路径下的csv文件

2 data = pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]})  #要保存的数据

3 data.to_csv(file, index=False)   #数据写入，index=False表示不加索引

3、产生新的数据，添加至上述csv文件中已有数据的后面

1 #新数据，与data具有相同的和列与列名
2 data2 = pd.DataFrame({'a':[7, 8, 9], 'b': [1, 2, 3]})
3 #保存至file文件中，index=False表示文件中不添加索引，header=False表示不添加列名，mode='a+'表示在已有数据基础上添加新数据，并不覆盖已有数据
4 data2.to_csv(file, index=False, mode='a+', header=False)

4、将数据保存至同一excel不同sheet中

直接用pd.to_excel()指定sheet_name时，即使指定sheet_name也没用，后一次的写入数据会覆盖前一次写入的数据，解决方法如下，借助pandas中的ExcelWriter方法；

# 方法1，推荐方法
with pd.ExcelWriter('test.xlsx') as writer:
    data.to_excel(writer, sheet_name='data')
    data2.to_excel(writer, sheet_name='data2')

# 写法2
writer = pd.ExcelWriter('test.xlsx')
data.to_excel(writer, sheet_name='data')
data.to_excel(writer, sheet_name='data2')
writer.save()
writer.close()

语句分析：

q_table6 = pd.read_csv('dl_data.csv',encoding = "utf-8",header = 0,names = range(0,50))

功能：将原来的列索引[-25......25]替换成[0....49]。

介绍：header = 0是默认情况（即不标明，默认就是header = 0），表示以数据的第一行为列索引。

encoding = "utf-8"表明以utf-8为编码规则。

names = range(0,50))表示以[0....49]为列索引的名字

q_table6 = pd.read_csv('dl_data.csv',encoding = "utf-8",header = None,names = range(0,50))

功能：给数据添加一行列索引[0....49]，header = None表示原来的数据是没有列索引的，就算你的数据里面有列索引，这时就把原来的列索引当成了数据。

上面两个语句都会默认为数据添加行索引，即会把原来的行索引当成数据，自己再添加新的行索引[0,1,2.....]

如果不想添加新的行索引，代码如下:

q_table6 = pd.read_csv('dl_data.csv',encoding = "utf-8",index_col=0)

index_col=0表示以原有数据的第一列(索引为0)当作行索引。

df.read(file,sep,shkiprows,usecols,nrows,chunksize...)

sep=',' # 以 “，” 作为数据的分隔符

shkiprows= 10 # 跳过前十行

usecols=['column1', 'column2', 'column3'] # 读取指定列

nrows = 10 # 只取前10行

chunksize=1000 # 分块大小来读取文件(每次读取多少行)，不一次性把文件数据读入内存中，而是分多次

parse_dates = ['col_name'] # 指定某行读取为日期格式

index_col = ['col_1','col_2'] # 读取指定的几列

error_bad_lines = False # 当某行数据有问题时，不报错，直接跳过，处理脏数据时使用

na_values = 'NULL' # 将NULL识别为空值

dt.to_csv('file.csv',sep='?')#使用?分隔需要保存的数据，如果不写，默认是,
dt.to_csv('file.csv',na_rep='NA') #确实值保存为NA，如果不写，默认是空
dt.to_csv('file.csv',float_format='%.2f') #保留两位小数
dt.to_csv('file.csv',columns=['name']) #保存索引列和name列
dt.to_csv('file.csv',header=0) #不保存列名
dt.to_csv('file.csv',index=0) #不保存行索引

解决python中 .to_csv() 的乱码问题

解决方法：添加参数 encoding='utf_8_sig'

df.to_csv('users.csv', encoding='utf_8_sig')

posted @ 2020-09-16 16:37 chengxuyonghu 阅读(534) 评论(0) 收藏举报

刷新页面返回顶部