随笔分类 -  豆瓣读书数据分析

摘要:前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析 数据的构建 在这张表中我们可以发现这里有5个数据,这里有三个特征(评分是否超过8.0,评分是否超过9.5,评价数是否超过45,000) 阅读全文
posted @ 2018-06-26 11:24 AntzUhl 阅读(1235) 评论(0) 推荐(0)
摘要:文化 经管 ....略 结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的 阅读全文
posted @ 2018-06-23 22:42 AntzUhl 阅读(818) 评论(0) 推荐(0)
摘要:前文参考: https://www.cnblogs.com/LexMoon/p/douban1.html Matplotlib绘制决策树代码: 运行结果: 阅读全文
posted @ 2018-06-23 19:50 AntzUhl 阅读(516) 评论(0) 推荐(0)
摘要:爬虫代码概述 一.数据存储 csv文件存储,为方便后继使用pandas进行分析,对于爬取的html文件使用BeautifulSoup进行解析 字段选择为 : 书名(titles) 作者/出版社(authors) 评分(nums) 评论数(peoples) 二.网页解析 html中书名(titles) 阅读全文
posted @ 2018-06-23 15:09 AntzUhl 阅读(1270) 评论(0) 推荐(0)