python 爬虫分析30年香港电影

   前言 

   上个礼拜接触爬虫,本身对香港电影比较感兴趣,这2天就去拿豆瓣数据做了份香港近30年电影的分析

  正文

  数据来源豆瓣

    

 

     

    这些路径是有规律 ,设置好循环条件,拿到电影url在进行下一步,在这之前有一部分电影我们过滤掉,典型的就是没有评分的电影,没有评分电影大部分是演出晚会,B级片等电影,

读者有兴趣可以查下,这些电影的数据可用性差我不来拿分析,香港上世纪90-99电影总数2700+,过滤后拿到的1100+。近30年电影初步得到是2500+

  

  然后分析页面结构,电影名会有多的 ,我是空格分开后取的第一个,简体字电影名排在首位,静态页面的数据爬取比较简单这里有几个注意点

    一:页面结构要多种预计 (有点页面没有导演或者编剧这些情况)

    二:遇到ip封禁的 设定时 ,登陆后拿自己账号cookies加入headers, 或者自己定义ip(r=requests.get(url,proxies={'http':random.choice(pro)},headers=head))

  多线程分配url任务时 ,因为我用的是mysql,遇到一个锁表的问题,这个作为以后学习点,不过使用MongoDB这种非关系数据库就没有这种问题

  数据结果

    可视化的有的是echarts:

    一:香港历年电影

  在1993-1995年和 2000-2001是香港电影的鼎盛时期 ,前者有霸王别姬,东邪西毒,活着,与大话西游系列,后者有花样年华,卧虎藏龙,无间道这些优秀

影片,在94,95巅峰后年电影有下降的趋势应该是97香港回归的影响,在回归后的2000左右稳定,并且再次有峰值。

  二:导演

  

  三:演员

  张国荣(2008年的为东西吸毒终极版)

 

 周星驰

 

刘德华

 

还有很多蛮有趣的数据就不都展示,这段时间体会到爬虫的乐趣,后面往图像处理方向学习

 

      

  

 

posted @ 2018-12-29 22:50  恰到好处  阅读(275)  评论(0)    收藏  举报