Python作业2：scrapy爬取链家+数据预处理

一、爬取数据并预处理

1、要求

作业1：通过爬虫爬取链家的新房数据，并进行预处理。

最终的csv文件，应包括以下字段：名称，地理位置（3个字段分别存储），房型（只保留最小房型），面积（按照最小值），总价（万元，整数），均价（万元，保留小数点后4位）；
对于所有字符串字段，要求去掉所有的前后空格；
如果有缺失数据，不用填充。
找出总价最贵和最便宜的房子，以及总价的中位数
找出单价最贵和最便宜的房子，以及单价的中位数

2、实验过程

准备阶段

通过查看网页源代码，找出页面对应元素所在的结构xpath，作为爬虫爬取数据的入口。如下图：

xpath可以直接复制得到，如下图：

由[2]，同上一次作业，我们需要爬取的元素有：名称，地理位置（3个字段分别存储），房型（只保留最小房型），面积（按照最小值），总价（万元，整数），均价（万元，保留小数点后4位）

代码编写

item.py：

import scrapy

class NewhouseItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

name = scrapy.Field() # 名称

location1 = scrapy.Field() # 地址1

location2 = scrapy.Field() # 地址2

locationDetail = scrapy.Field() # 详细地址

houseType = scrapy.Field() # 房型

area = scrapy.Field() # 面积（取最小值）

TTprice = scrapy.Field() # 总价

averagePrice = scrapy.Field() # 均价

setting.py只需加入下面一句：

ITEM_PIPELINES =

最后是spider.py，我将新房页面19页的数据都爬取下来，因为要从其中最贵和最便宜的等待；由于要进行之后的数据分析，所以这里我尽量将面积、总价和单价作为仅有数字的字符串保存而非列表：

import scrapy

from newHouse.items import NewhouseItem

import csv

import re

class MySpider(scrapy.Spider):

name = 'newHouse'

allowed_domains = ['bj.lianjia.com']

start_urls = ['https://bj.fang.lianjia.com/loupan/']

start_urls = []

for page in range(1, 19):

"""爬取19页数据"""

url = 'https://bj.fang.lianjia.com/loupan/pg{}'.format(page)

start_urls.append(url)

def parse(self, response):

item = NewhouseItem()

for each in response.xpath("//div[4]/ul[2]/*"):

"""爬取该路径下的房区信息"""

"""楼盘名称"""

item['name'] = each.xpath("./div[1]/div[1]/a[1]/text()").extract()

"""楼盘地理位置，分三段"""

item['location1'] = each.xpath("./div[1]/div[2]/span[1]/text()").extract()

item['location2'] = each.xpath("./div[1]/div[2]/span[2]/text()").extract()

item['locationDetail'] = each.xpath("./div[1]/div[2]/a[1]/text()").extract()

"""楼盘房型（取最小房型）"""

item['houseType'] = each.xpath("./div[1]/a[1]/span[1]/text()").extract()

"""楼盘面积（取最小值）"""

Area = each.xpath("./div[1]/div[3]/span/text()").extract()[0].split('-')[0].split()[1]

number = ''

for i in str(Area):

"""取出其中的数字"""

if i.isdigit():

number += i

item['area'] = number

"""楼盘均价"""

item['averagePrice'] = float(each.xpath("./div[1]/div[6]/div[1]/span[1]/text()").extract()[0]) / 10000

"""楼盘总价"""

ttprice = each.xpath("./div[1]/div[6]/div[2]/text()").extract()

number = ''

for i in str(ttprice):

"""取出其中的数字"""

if i.isdigit():

number += i

item['TTprice'] = number

if (item['name'] and item['area'] and item['TTprice'] and item['averagePrice']):

"""去除空值"""

yield(item) # 将item返回到pipeline模块

else:

print('-----------ERROR-------------', item['name'])

3、爬取结果

19页数据，共190组左右

4、数据预处理

代码编写

使用pandas和numpy库函数，比较简单，源代码如下：

import numpy as np

import pandas as pd

filename = 'newHouse.csv' # 文件名

data_df = pd.read_csv(filename, encoding = 'utf-8', dtype = str)

# 去掉所有字符串的前后空行

data_df['name'] = data_df['name'].str.strip()

data_df['location1'] = data_df['location1'].str.strip()

data_df['location2'] = data_df['location2'].str.strip()

data_df['locationDetail'] = data_df['locationDetail'].str.strip()

data_df['houseType'] = data_df['houseType'].str.strip()

# 将面积和价格改为浮点型

data_df['TTprice/万元'] = data_df['TTprice/万元'].astype(np.float)

data_df['averagePrice/万元'] = data_df['averagePrice/万元'].astype(np.float)

data_df['area/m2'] = data_df['area/m2'].astype(np.float)

# 找出总价最贵和最便宜的房子，以及总价的中位数

print('总价最贵的房子：')

msg = data_df['TTprice/万元']

print(data_df.iloc[msg.idxmax()])

print('**********************************************************')

print('总价最便宜的房子：')

print(data_df.iloc[msg.idxmin()])

print('**********************************************************')

print('总价的中位数：')

print(msg.median())

print('**********************************************************')

print('\n----------------------------------------------------------\n')

# 找出单价最贵和最便宜的房子，以及单价的中位数

print('单价最贵的房子：')

msg = data_df['averagePrice/万元']

print(data_df.iloc[msg.idxmax()])

print('**********************************************************')

print('单价最便宜的房子：')

print(data_df.iloc[msg.idxmin()])

print('**********************************************************')

print('单价的中位数：')

print(msg.median())

print('**********************************************************\n')

预处理结果

总价最贵和最便宜的房子，以及总价的中位数：

单价的最贵和最便宜的房子，以及单价的中位数：

二、计算北京空气质量数据

1、作业要求

作业2：计算北京空气质量数据

汇总计算PM指数年平均值的变化情况
汇总计算10-15年PM指数和温度月平均数据的变化情况

2、代码编写

使用numpy和pandas库函数可以很简单地实现本次作业的汇总，关键代码：

aveY_df = df.groupby('year').mean()

aveM_df = df.groupby(['year', 'month']).mean()

第一句是将数据按照年将其汇总；第二句是将数据按照[年，月]将其汇总。

所有代码如下：

import numpy as np

import pandas as pd

from pandas import DataFrame

# 读取文件

filename = 'BeijingPM20100101_20151231.csv'

df = pd.read_csv(filename, encoding = 'utf-8')

# 删除有空PM值的行

df.dropna(axis=0, how='all', subset=['PM_Dongsi','PM_Dongsihuan','PM_Nongzhanguan', 'PM_US Post'], inplace=True)

# 计算PM平均值

df['PMsum'] = df[['PM_Dongsi','PM_Dongsihuan','PM_Nongzhanguan', 'PM_US Post']].sum(axis=1)

df['PMcount'] = df[['PM_Dongsi','PM_Dongsihuan','PM_Nongzhanguan', 'PM_US Post']].count(axis=1)

df['PMave']=round(df['PMsum']/df['PMcount'],2)

aveY_df = df.groupby('year').mean()

aveM_df = df.groupby(['year', 'month']).mean()

# PM年平均值输出到文件

aveY_df.to_csv('PMyearAve.csv')

# PM和TEMP月平均值输出到文件

aveM_df.to_csv('PM_TEMP_monthAve.csv')

# 输出PM年平均值

print(df.groupby('year').mean())

print('------------------------------------------')

# 输出PM和TEMP月平均值

print(df.groupby(['year', 'month']).mean())

3、预处理结果：

PM按年分析

即如下：

year	PMave
2010	104.0457
2011	99.09324
2012	90.53877
2013	98.40268
2014	93.91771
2015	85.85894

### PM和TEMP按月分析

制表如下：

year	month	TEMP	PMave
2010	1	-6.37156	90.40367
2010	2	-1.91505	97.23994
2010	3	2.997179	94.04654
2010	4	10.8078	80.07242
2010	5	20.85346	87.07191
2010	6	24.49381	109.0389
2010	7	27.72984	123.4261
2010	8	25.34763	97.68343
2010	9	22.24145	122.7927
2010	10	12.28302	118.7844
2010	11	3.308735	138.384
2010	12	-2.05787	97.11575
2011	1	-5.54383	44.8737
2011	2	-0.85417	150.2902
2011	3	6.966346	57.99199
2011	4	14.69646	91.72067
2011	5	20.73315	65.10815
2011	6	25.64416	108.7947
2011	7	26.46081	107.3865
2011	8	25.66375	103.7338
2011	9	19.2267	94.9694
2011	10	13.19968	145.5568
2011	11	5.94965	109.435
2011	12	-2.30686	108.7214
2012	1	-4.94328	118.9224
2012	2	-2.57391	84.44203
2012	3	5.068919	96.47432
2012	4	15.46314	87.83588
2012	5	21.93488	90.96671
2012	6	24.3291	96.63418
2012	7	26.55959	80.64971
2012	8	25.54735	81.16533
2012	9	20.11517	59.95225
2012	10	13.30811	94.95135
2012	11	3.691977	87.43696
2012	12	-4.35342	109.1873
2013	1	-5.37568	183.1953
2013	2	-1.82143	113.5665
2013	3	5.405914	114.5728
2013	4	12.24861	63.04781
2013	5	21.45565	89.14853
2013	6	23.67778	111.3548
2013	7	27.08221	74.93284
2013	8	26.57124	67.92363
2013	9	20.125	85.71787
2013	10	12.82124	102.2088
2013	11	5.913889	85.14629
2013	12	-0.29301	90.31777
2014	1	-0.91398	107.9117
2014	2	-0.70238	160.5139
2014	3	9.564516	103.1833
2014	4	16.84444	92.16069
2014	5	21.6129	64.95851
2014	6	24.83333	59.15464
2014	7	28.04435	91.79995
2014	8	25.79408	65.66822
2014	9	20.50417	68.23267
2014	10	13.3414	135.2697
2014	11	5.676389	106.3375
2014	12	-1.41935	76.62251
2015	1	-1.32661	110.0228
2015	2	0.941964	103.4456
2015	3	8.265141	94.48344
2015	4	15.53889	79.39706
2015	5	21.49328	61.16751
2015	6	24.67455	60.33239
2015	7	26.5672	60.22953
2015	8	25.82907	45.89608
2015	9	20.40833	50.92475
2015	10	13.82796	77.25774
2015	11	2.897079	125.8032
2015	12	-0.61777	162.1789

posted @ 2020-11-27 16:59 EEthunder 阅读(1886) 评论(0) 收藏举报

刷新页面返回顶部

Python作业2：scrapy爬取链家+数据预处理

Python作业2：scrapy爬取链家+数据预处理

一、爬取数据并预处理

1、要求

2、实验过程

准备阶段

代码编写

3、爬取结果

4、数据预处理

代码编写

预处理结果

二、计算北京空气质量数据

1、作业要求

2、代码编写

3、预处理结果：

PM按年分析

公告