python 爬虫分析30年香港电影

　　前言　

　　上个礼拜接触爬虫，本身对香港电影比较感兴趣，这2天就去拿豆瓣数据做了份香港近30年电影的分析

　　正文

　　数据来源豆瓣

　　　　这些路径是有规律，设置好循环条件，拿到电影url在进行下一步，在这之前有一部分电影我们过滤掉，典型的就是没有评分的电影，没有评分电影大部分是演出晚会，B级片等电影，

读者有兴趣可以查下,这些电影的数据可用性差我不来拿分析，香港上世纪90-99电影总数2700+，过滤后拿到的1100+。近30年电影初步得到是2500+

　　然后分析页面结构，电影名会有多的，我是空格分开后取的第一个，简体字电影名排在首位，静态页面的数据爬取比较简单这里有几个注意点

　　　　一：页面结构要多种预计（有点页面没有导演或者编剧这些情况）

　　　　二:遇到ip封禁的设定时，登陆后拿自己账号cookies加入headers, 或者自己定义ip(r=requests.get(url,proxies={'http':random.choice(pro)},headers=head))

　　多线程分配url任务时，因为我用的是mysql，遇到一个锁表的问题，这个作为以后学习点，不过使用MongoDB这种非关系数据库就没有这种问题

　　数据结果

　　　　可视化的有的是echarts：

　　　　一：香港历年电影

　　在1993-1995年和 2000-2001是香港电影的鼎盛时期，前者有霸王别姬，东邪西毒，活着，与大话西游系列，后者有花样年华，卧虎藏龙，无间道这些优秀

影片,在94,95巅峰后年电影有下降的趋势应该是97香港回归的影响，在回归后的2000左右稳定，并且再次有峰值。

　　二：导演

　　三：演员

　　张国荣(2008年的为东西吸毒终极版)

周星驰

刘德华

还有很多蛮有趣的数据就不都展示，这段时间体会到爬虫的乐趣，后面往图像处理方向学习

posted @ 2018-12-29 22:50 恰到好处阅读(283) 评论(0) 收藏举报

刷新页面返回顶部