|
|
|
|
|
|
|
|
|
| 2021年----2022年 第一学期 |
|
|
|
|
|
|
|
| 姓名: |
| 学号: |
| 班级: |
| 指导老师: |
| 提交时间: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
|
| 从excel导入数据源 |
|
|
|
| 生成数据源信息 |
| 自动建表 |
|
|
|
| 从excel导入数据,拖入导入框 |
|
|
|
| 导入完成 |
|
|
|
|
| 2 |
|
| 缺失记录仅___3___条,采取网上搜索,补全信息。 |
|
| 2.1 补全 release_date |
|
| 对release_date进行空值补全 |
|
| 进入数据清洗页面 |
|
| 查询release_date字段空值 |
| 只有一条 |
|
|
|
|
|
|
|
|
|
|
|
|
| 缺失记录的电影标题为《America Is Still the Place》,日期为___2014-06-01_______。 |
|
| 2.2 补全 runtime |
| 查询runtime空值 |
|
|
|
| 补全空值 |
|
| 缺失记录的电影 runtime 分别为_94__min 和 ___240__min。 |
|
| 3 |
|
|
|
|
|
|
|
|
|
|
|
| 运行结果:有__4803___个不重复的 id,可以认为没有重复数据。 |
|
|
| 2 |
|
|
| 4 |
|
| 将 release_date 列转换为日期类型: |
|
|
|
|
|
| 5 |
|
| 票房、预算、受欢迎程度、评分为__0_____的数据应该去除; |
|
| 评分人数过低的电影,评分不具有统计意义,筛选评分人数大于__50___的数据。 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 此时剩余_3272__条数据,包含__19_个字段。 |
|
| 6 json 数据转换 |
|
| 说明:genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是 |
|
| json 数据,需要处理为列表进行分析。 |
|
| 处理方法: |
|
| json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串 |
| 对六列进行json数据转换 |
|
|
|
| 分别对genres,keywords,production_companies,production_countries,cast,crew 做相同操作 |
|
|
|
|
|
|
| 7 |
|
|
|
|
| 5 |
|
| 5.1 why |
|
| 想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与 |
|
| 关键词等维度着手,给从业者提供合适的建议。 |
|
| 5.2 what |
|
| 5.2.1 电影类型:定义一个集合,获取所有的电影类型 |
|
|
| 1. |
| 2. |
| 3. |
| 4. |
|
|
|
| 注意到集合中存在多余的元素:空的单引号,所以需要去除。 |
|
|
|
| 5.2.1.1 电影类型数量(绘制条形图) |
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5.2.1.2 电影类型占比(绘制饼图) |
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
| 14. |
| 15. |
| 16. |
| 17. |
|
|
| 5.2.1.3 电影类型变化趋势(绘制折线图) |
|
|
|
|
| 5.2.1.4 不同电影类型预算/利润(绘制组合图) |
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
| 14. |
| 15. |
| 16. |
| 17. |
| 18. |
| 19. |
| 20. |
| 21. |
| 22. |
| 23. |
| 24. |
| 25. |
| 26. |
| 27. |
| 28. |
| 29. |
| 30. |
| 31. |
| 32. |
| 33. |
| 34. |
| 35. |
| 36. |
| 37. |
| 38. |
| 39. |
| 40. |
| 41. |
| 42. |
| 43. |
| 44. |
| 45. |
| 46. |
| 47. |
| 48. |
| 49. |
| 50. |
| 51. |
| 52. |
| 53. |
| 54. |
| 55. |
| 56. |
| 57. |
| 58. |
| 59. |
| 60. |
| 61. |
| 62. |
| 63. |
| 64. |
| 65. |
| 66. |
| 67. |
| 68. |
| 69. |
| 70. |
| 71. |
| 72. |
| 73. |
| 74. |
| 75. |
|
|
|
|
| 5.2.2 电影关键词(keywords 关键词分析,绘制词云图) |
|
|
| 5.3 when |
|
| 查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。 |
|
|
|
| 5.3.1 电影时长(绘制电影时长直方图) |
|
| 5.3.2 发行时间(绘制每月电影数量和单片平均票房) |
|
|
| 5.4 where |
|
| 本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事 |
|
| 背景下不作分析。 |
|
| 5.5 who |
|
| 5.5.1 分析票房分布及票房 Top10 的导演 |
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
| 14. |
| 15. |
| 16. |
| 17. |
| 18. |
| 19. |
| 20. |
| 21. |
|
|
| 5.5.2 分析评分分布及评分 Top10 的导演 |
|
|
|
|
| 5.6 how |
|
| 5.6.1 原创 VS 改编占比(饼图) |
|
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
| 14. |
| 15. |
| 16. |
| 17. |
| 18. |
| 19. |
| 20. |
| 21. |
| 22. |
| 23. |
| 24. |
| 25. |
| 26. |
|
|
|
| 5.6.2 原创 VS 改编预算/利润率(组合图) |
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
| 14. |
| 15. |
| 16. |
| 17. |
| 18. |
| 19. |
| 20. |
| 21. |
| 22. |
| 23. |
| 24. |
| 25. |
| 26. |
| 27. |
| 28. |
|
|
|
| 5.7 how much |
|
| 5.7.1 计算相关系数(票房相关系数矩阵) |
|
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
| 14. |
|
|
| 5.7.2 票房影响因素散点图 |
|
| 1. |
| 2. |
| 3. |
| 4. |
| 5. |
| 6. |
| 7. |
| 8. |
| 9. |
| 10. |
| 11. |
| 12. |
| 13. |
| 14. |
| 15. |
| 16. |
| 17. |
| 18. |
| 19. |
| 20. |
| 21. |
| 22. |
| 23. |
| 24. |
| 25. |
| 26. |
| 27. |
| 28. |
|
|
|
| 6 对附件的 tmdb_1000_predicted.csv 的预测结果 |