案例▍Python实战 爬取万条票房数据分析2019春节档电影状况

640?wx_fmt=jpeg

题图|《流浪地球》海报 作者|量化小白上分记 36大数据获授权转载

今年春节档全国共有8部影片上映,对于影片的对比分析已经非常多,孰优孰劣,每个人心里都有一杆秤,不再赘述。本文着重分析影片票房的地域差别,爬取了年后两周各地万余家影院的票房数据,一起来看看各地影院今年春节档表现如何,非官方统计,数据一定不准确,看看就好。

 

1.数据说明

 

分影院的票房数据来自中国票房网: ** http://www.cbooo.cn/cinemaday **

 

网站提供日票房排行榜的前100名和周票房的前一万余名,本文爬取包含更多样本的周票房数据,取年后两周的数据。

 

640?wx_fmt=png

 

最终爬到的数据样式如下,数据从左往右依次为 ** 影院名称 ** , ** 当周票房 ** 、 ** 单荧幕票房 ** 、 ** 场均人次 ** 、 单日单厅票房单日单厅场次 6个变量。

 

640?wx_fmt=png

 

2.数据获取

 

使用python获取数据,对于爬取过程不感兴趣的可以直接看下部分,需要数据/代码的请在后台回复“ ** 票房 ** ”。

 

在数据页面按 ** F12 ** 打开开发者工具,选择 ** NetWork ** , ** XHR ** ,刷新页面后,依次点1,2,3,4页,接收到了一堆文件。

 

640?wx_fmt=png

 

右键任意打开一个,显示如下(如果不是这种格式,说明你选错了)

 

640?wx_fmt=png

 

是我们需要的数据,对比前后的变量关系,得到每个变量的含义。

 

640?wx_fmt=png

 

再分析网址,从前面的截图能看出来, pindex后面跟的是页码 ,对页码进行循环就可以爬到所有的数据。dt = 1042看不出来什么意思,但改变日期范围重复上面的操作时,看到此时dt变成了1041,说明 dt后面的值对应不同的日期范围 。

 

640?wx_fmt=png

 

我们的目标是爬取0204-0210,0211-0217两周的数据,获取对应的dt分别是1040和1041,最终代码如下

 

    # -*- coding: utf-8 -*-  
  """  
  Created on Fri Oct 19 18:50:03 2018  
     
  """  
  import urllib  
  import requests  
  from fake_useragent import UserAgent  
  import json  
  import pandas as pd  
  import time  
  import datetime  
     
  # 发送get请求  
  comment_api = 'http://www.cbooo.cn/BoxOffice/getCBW?pIndex={}&dt={}'  
  """  
  cinemaName:影院名称  
  amount:当周票房  
  avgPS:场均人次  
  avgScreen:单荧幕票房  
  screen_yield:单日单厅票房  
  scenes_time:单日单厅场次  
  """  
     
     
  headers = { "User-Agent": UserAgent(verify_ssl=False).random}  
     
  #response_comment = requests.get(comment_api.format(1,1040),headers = headers)  
  #json_comment = response_comment.text  
  #json_comment = json.loads(json_comment)  
  col = ['cinemaName','amount','avgPS','avgScreen','scenes_time','screen_yield']  
     
  dataall = pd.DataFrame()  
     
     
  num = 1035  
  for i in range(1,num+1):  
       
     
     response_comment = requests.get(comment_api.format(i,1041),headers = headers)  
     json_comment = response_comment.text  
     json_comment = json.loads(json_comment)          
       
     n = len(json_comment['data1'])  
     datas = pd.DataFrame(index = range(n),columns = col)  
     for j in range(n):          
         datas.loc[j,'cinemaName'] = json_comment['data1'][j]['cinemaName']  
         datas.loc[j,'amount'] = json_comment['data1'][j]['amount']  
         datas.loc[j,'avgPS'] = json_comment['data1'][j]['avgPS']  
         datas.loc[j,'avgScreen'] = json_comment['data1'][j]['avgScreen']  
         datas.loc[j,'scenes_time'] = json_comment['data1'][j]['scenes_time']  
         datas.loc[j,'screen_yield'] = json_comment['data1'][j]['screen_yield']  
     
     dataall = pd.concat([dataall,datas],axis = 0)  
     print('已完成 {}% !'.format(round(i/num*100,2)))  
     time.sleep(0.5)  
       
  dataall = dataall.reset_index()
[/code]

 

得到的两周数据里,第一周包含11295个样本,第二周包含11375个样本,将两周数据按影院合并后,最终得到10193个样本。

 

```code
  data1 = data1.drop_duplicates()  
  data2 = data2.drop_duplicates()  
     
  datas = pd.merge(data1,data2,left_on ='cinemaName',right_on = 'cinemaName').dropna()  
  datas = datas.reset_index(drop = True)  
     
  dataall = datas[['cinemaName']]  
     
  dataall['amount'] = datas['amount_x'] + datas['amount_y']  
  dataall['avgPS'] = (datas['avgPS_x'] + datas['avgPS_y'])/2  
  dataall['avgScreen'] = datas['avgScreen_x'] + datas['avgScreen_y']  
  dataall['screen_yield'] = (datas['screen_yield_x'] + datas['screen_yield_y'])/2  
  dataall['scenes_time'] = (datas['scenes_time_x'] + datas['scenes_time_y'])/2  
  dataall['avgprice'] = dataall.screen_yield/dataall.scenes_time/dataall.avgPS  
  dataall = dataall.dropna().reset_index(drop = True)
[/code]

 

 

3.数据总览  

 

先从各方面简单看看取到的数据。

 

** 票房TOP10影院 **

 

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaVcyqcSLd74eULbF27qbOfh1k4x6sPTibSNHTCNGN5RL8g3CcOKuEkibog/640?wx_fmt=png)

 

北京耀莱以860万的票房,远超第二名金逸北京的590万占据首位。并且票房前10名中,有5家都是北京的影院。

 

** 单变量分布 **

 

用单日单厅票房/单日单厅场次/场均人数估计平均票价,各个变量分布进如下

 

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaVrcKPhYm0sfRKEfvdwL7DsEQyUbnyAc56twibS3icAribXibWlANbtE31lA/640?wx_fmt=png)

 

可以看出,所有变量都呈现 ** 尖峰右拖尾 **
的特征,大部分值低于中位数,但也不乏高于均值的点,考虑到各个影院数据存在规模、地域等因素差异,这一结果就很正常了。

 

** 票房影响因素 **

 

1. 从上图看出,场均人次与单荧幕票房正相关,观影人数增多票房收入增加,符合常理。

 

2. 单日单厅场次与票房之间有先升后降的关系,换句话说, ** 排片少时,增加每日排片能增加票房收入,但排片过于密集,反而不利于票房增加 ** 。

 

3. 票价,场均人次与票房之间关系如图,颜色越深,表明票房越高。票价影响场均人次,过高和过低都会使票房收入减少,平均票价 ** 40-70 ** 区间内,影院票房收入更高,符合实际情况。

 

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaVrked4HnwEJheMUCIGiaKZHF4o1nhcnYJGFOeibCGqSLPGrKV3yGm2Asw/640?wx_fmt=png)

 

4.票房地域特征

 

粗略看过数据之后,我们分析地域因素对于票房的影响,虽然爬取的数据中没有直接给出影院的地域特征,但可以用影院名称提取地域位置,python里有一个基于jieba分词的地域查询包
**cpca** ,可以直接返回中文地址对应的省市县。  

 

```code
  result = cpca.transform(dataall.cinemaName.tolist(),cut = False)  
  dataall['province'] = result['省']  
  dataall['city'] = result['市']
[/code]

 

用cpca查询各个影院所在的省市,但这个包也不是非常完善,加上有的影院名称地址非常模糊,最终有7581个影院查询到了省市。

 

未查询到的部分影院如下,一部分是没有地域信息,只有影院名称,一部分有地域信息,可能过于生僻,未能匹配到,之后的分析中删掉没匹配到的这部分影院。

 

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaVC06EeqSWmIIEco92ic1Lsj5NxVstIV8GoGTkdbu3e2HGicJkDQrkx4PQ/640?wx_fmt=png)

 

匹配到影院所在省份后,按省份汇总数据,分析各省票房。

 

** 各省票房 **

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaVmzlu4Eog8rXFeIGMr8F2cbeoJ6Q1OGlcibVJEMxhibKyS03Kq4icd2Glw/640?wx_fmt=png)

 

各地区票房存在明显差异,广东省票房收入最高,远超其他省份去,西藏票房最少。

 

接下来从各省影院数、场均人次、平均票价三方面来看各省差异。  

 

** 影院数 **

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaVPb4NvJXlyVqycsia1SwibpKepIjtwEB598qt4D8RzBFartfFicicAjCojg/640?wx_fmt=png)

 

最终获取的有地域信息的影院中,广东省有1088个影院,远远超出平均水平,这也可以解释为何广东省票房总数能排到第一,而西藏地区仅有13个影院,绝大部分地区影院在200上下浮动。

 

**场均人次-平均票价**

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaVHacQ5IfwicRnx63xZUyZibo1RlYlwYZcDMUic1cc4hfpdWYKoM1JKIm5A/640?wx_fmt=png)

 

平均票价整体差异不大,40元左右波动,场均人次来看,北京天津最多,但最高最低值差异不超过30人,因此这两项因素对于票房的影响远不如影院数大。

 

** 各市票房分布 **

最后将票房按市进行统计,得到全国各市票房分布如下

![640?wx_fmt=png](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_png/o6jS02mRg5Td3XEfwRQDDMiaBlDAqLBiaV0HmEmibCjDib9ib3YcrcdlB0aqrrf2FCFQBNGkOcMk2ffXNrWyJicakOog/640?wx_fmt=png)

 

图中标出了票房收入最高的5个市,分别是 ** 北京 ** ( 3279万)、 **上海** (3083万)、 **广州** (2258万)、
**深圳** (2205万)、 ** 成都 ** (1856万)。

![640?wx_fmt=jpeg](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/jAqr3XzCYibzz7Hfoh6t3Yd6BukG0ibK8D3iaHfN1oMUp5gV1iavl7ANg2tCGh0nPfvI6ictX09KXLQ99wiaHtnsPDKw/640?wx_fmt=jpeg)

END“

新年新气象,36大数据社群(大数据交流、AI技术学习群、机器人研究、AI+行业、企业合作群)火热招募中,对大数据和AI感兴趣的小伙伴们。增加AI小秘书微信号:
a769996688 , 说明身份即可加入 。

![640?wx_fmt=jpeg](https://ss.csdn.net/p?https://mmbiz.qpic.cn/mmbiz_jpg/jAqr3XzCYibzz7Hfoh6t3Yd6BukG0ibK8DrXiazasc4OL268mTb1l8B63QH7JRoqqq5gBc4UGy2fbPmWOricw6UEUA/640?wx_fmt=jpeg)

欢迎投稿,投稿/合作:dashuju36@qq.com

如果您觉得文章不错,那就分享到朋友圈~

 


![在这里插入图片描述](https://img-blog.csdnimg.cn/20210608151750993.gif)
posted on 2021-07-09 19:09  BabyGo000  阅读(336)  评论(0)    收藏  举报