基于链家网的二手房数据采集清洗与可视化分析
个人学习内容笔记,仅供参考。
研究内容
该课题的主要目的是通过将二手房网站上的存量与已销售房源,构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此,该课题的主要研究内容就是如何利用相关技术设计并实现这样的平台。
主要研究的内容如下:
- 相关理论和技术的研究。即对于构建这样的平台需要的理论知识与技术的研究,以及对于搭建该平台的框架认识与了解。并且考虑后续系统所可能的扩展。
- 数据爬取与清洗。通过Python开发语言、爬虫和页面解析软件包,结合链家网的页面结构和数据分布情况,对数据进行采集和数据清洗,为可视化提供有效的数据支撑。
- 可视化的需求分析。根据最终清洗的数据,从房源特点和客户关注度角度出发,详细分析平台所应当拥有的可视化模块。
- 平台的设计与实现。在对平台进行需求分析后,需要对平台进行整体的架构设计,应当考虑到如何用HTML和Echarts完成架构和不同可视化模块的设计
相关理论和技术
Selenium与Xpath爬虫模块
网络爬虫的核心是

浙公网安备 33010602011771号