用1000行代码统计西安新房价格后，我有一个惊人的发现……

事情是这样的

前段时候，我站在华山之巅（没错，我去夜爬华山看日出了，要死），一个朋友突然问我：你知道现在西安每个区域的新房均价是多少吗？

这个时候，肯定是用数据说话嘛。

不过你以为我会在网上随便找个，不知道哪里冒出来的（野榜）西安各区域价格排名，甩给对方了事吗？

当然不会！

众所周知，我是一个程序猿，身为程序猿，严谨细致，阳光帅气。。。咳咳

秉承着严谨负责的态度，我当然要用最准确，最全面的数据，这样才有说服力嘛。

先上结果

高新单价一枝独秀 23199.73/㎡

航天基地总价霸榜平均333个w

航天基地户均158.72㎡

时而房荒时而放量

精装毛坯大约 1比2

面积分布主力为100-150

房子越大，单价越贵

需求分解

我们来需求分解下，要想知道西安每个区域的新房均价是多少

首先我们需要知道全市每套新房的价格
其次要知道每套房子位于哪个区域
然后将所有房子按区域分类
最后求每个区域所有房子价格的平均数

重点难点还是前两步，从哪里获取这种价格和区域的数据，才最准确，最全面呢？

当然是西安住建官网的价格公示啦~

这个网站上，有 2021-09-14 之后所有新房的一房一价数据。刚好有我需要的每一套房子的价格和区域数据，还有一些其他信息。而且是官方公示，保证准确全面。

我们来看下这个网站的结构，点击项目名称，可显示楼幢信息：

点击楼幢编号，显示房屋信息：

这样我们就可以查到我们需要的所有数据了。

我简单看了下，网站总共公示了有160多个项目，5万多套房子的数据，我呢，手动将5万多套房子的数据复制粘贴到 Excel 统计。

最后得到了以上结论。很简单，有手就行。

全文完感谢阅读

手艺人的事

说好的写代码实现呢！？？

众所周知，我是一个程序猿，身为程序猿，会点网络请求和数据处理很合情合理吧。

上手艺！

于是乎，我分析了下网页代码，流程大致是这样的：

3个界面所包含的信息如下:

项目信息：项目名称、所属事权区域、项目坐落、开发企业、公示楼幢数量、公示时间
楼幢信息：楼幢(#)、层数、楼幢均价(元/㎡)、装修标准、是否一房一价
房屋信息：房号、建筑面积（㎡）、单价（元/㎡）、房屋总价（元）、装修标准

一进项目信息的网页，从开发者工具中可以看到，哗啦啦请求了一大堆资源，不用管别的，真正有用的是第一个（居然不是rest风格接口，差评）：

这个请求就返回了我们需要的项目名称和所属事权区域信息。

看这个请求的三个参数page=1&key=&qdm=，猜也能猜出来，第一个是分页参数，第二个是项目名称，第三个是区域。由于这里我们要的是所有数据，所以后面两个参数对我们来说就没啥用了。

再点击项目名称，进入楼幢信息页面，又会请求一堆资源，有用的还是第一个接口：

这个接口返回的是该项目下，每栋楼幢的信息，这里其实没有什么我们需要的数据。

请求参数也很简单，就一个gsbh=BDADB0175B77D79C60DA5D5B0B6F00D4，一看就知道是项目（公司）编号ID，用的应该是UUID。

有人会说，这里就有每栋楼幢的均价啊，那不就可以了吗？知道每幢楼的均价，再对每个区域所有楼幢的均价求平均数，不就是区域的房价平均数吗？

从数学角度，这逻辑没毛病，可我明明可以获取更精确的每套房子的价格，干嘛还要用别人给我提供的均价再去求平均数呢？万一某个楼幢均价被工作人员算错了也说不定。

于是我再点击楼幢号，进入房屋信息界面，依然请求了一堆资源，依然看第一个接口：

这个接口返回的是该楼幢下，每个房屋的信息，就有我们最关心的面积、单价和总价信息。

请求参数有两个lzbh=A4DE1E35C1227816B3F2239C0A685603&lzh=1，看拼音也知道，这两个分别是楼幢编号ID和楼幢号。

现在我们就清楚了所有需要的数据，应该从哪些地方搞了，就是上面三个接口。

Coding

页面逻辑已经梳理清楚，接下来不就剩coding了嘛。

别急，在coding之前，我们应该先在数据库里建好表，这样方便我们后续各种花式查询。

我设计的表结构长这样：

其实从业务模型上来说，应该是有三张表才对：项目表、楼幢表、房屋表。但是因为我懒，所以一个大宽表全部存起来，数据冗余就冗余吧，对数据库来说数据量很小，问题不大。

然后去https://start.spring.io/网站搭个架子，我设想中这个程序要是持续自动化的，每周自动去更新最新的信息到数据库里，所以这里用一下 Spring 自带的 Scheduled 单机定时任务就行，不需要整什么分布式任务调度。

这里我们用 cron 表达式规则，让他每周六凌晨4点执行，这个时候网站访问人数应该比较少，减少对服务器的压力：

既然要模拟发送网络请求，我就简单搞个 OkHttp 吧，这个没什么，自己喜欢用哪个就用哪个：

然后就是一大段 html 解析了，这个没啥说的，就是一些数据处理，很简单，直接上成果：

代码逻辑主要有5步：

查询所有的项目信息
从数据库中过滤掉已经入库的项目信息
根据项目信息查询所有楼幢信息
根据楼幢信息查询所有房屋信息
构造DO对象集合，将所有房屋信息插入数据库

最后就是用 mybatis 批量插入数据库里：

记得这么写的话要开启这个参数哦：

两个坑

既然是分页查询数据，那肯定会有什么时候结束分页的问题。这个本来没什么，测试请求一个很大的 page 参数，看看服务器怎么返回的就知道了。可这里就有个坑，我在项目信息页，传入 page=100，返回的数据是这样的：

<table> 标签内只有一个 <tr>，就是表头信息，那我就认为，当出现这种情况的时候，分页请求就应该结束了。

可当我在请求楼幢信息页的时候，同样传入 page=100，发现并不一样，响应体居然是空的：

房屋信息页也是一样的问题。

所以项目信息页的分页终止条件，和楼幢信息页、房屋信息页的分页终止条件，是不一样的，这是一个坑。

第二个遇到的坑，是隐藏在网页的 JS 代码里。

当点击项目名称、楼幢编号，会进行页面跳转嘛，这肯定是在 JS 里实现的，去看看代码。

如上图所示，当点击项目名称的时候，会去调用 goherf 方法，这个方法有两个参数。第一个简单，应该就是项目编号ID，是打开楼幢信息页面所需要的参数之一。可第二个参数是什么呢？我们去看看方法里面：

看到第二个参数是一个 type ，当不等于 0 的时候，才会打开楼幢信息页面，否则就弹窗提示：“当前项目暂未公示楼幢信息！”

好了，知道了这个点，我们代码里也需要判断下这个 type 是否等于 0，当等于 0 的时候，就不需要继续往后查询楼幢和房屋信息了。

那么楼幢信息页呢？是不是也是这么处理的呢？结果它不一样了！在楼幢信息页，点击楼幢号，它也是调用了一个 goherf 方法：

这个方法有三个参数，第一个同样是楼幢编号ID，第三个是楼幢号，那第二个是啥？有了上面的经验，我猜测也是一个 type，去看看 JS 代码：

没猜错，第二个确实是一个 type，可判断逻辑和上面的项目信息页的不一样！这个是只有等于 1 的时候，才允许打开房屋信息页，否则就弹窗提示“当前楼幢暂未公示房屋信息！”，总结如下：

	等于固定值时	不等于固定值时
项目信息页	type=0，没有楼幢信息	type!=0，打开楼幢信息
楼幢信息页	type=1，打开房屋信息	type!=1，没有房屋信息

所以这第二个坑，在处理两个页面的逻辑时要注意区别。

从上面两个坑来看，我有理由怀疑，写项目信息页接口的，和楼幢信息页、房屋信息页接口的程序员，应该不是同一个人。

上成果

经过我两天的调研和coding，终于写完了，上成果：

数据库内容：

数据库有数据了，那么接下来就是写sql的事了。

统计各个区域新房的平均单价，由高到低排序：

这绝对是全网最真实最准确的各个区域新房均价排名了。怎么样，和你心目中的排名有区别吗？

我们可以再统计其他信息玩玩。

统计各个区域新房的平均总价，由高到低排序：

统计各个区域新房的平均建筑面积，由高到低排序：

统计每个月公示价格的新房数量：

好家伙，西安今年6月份是放了多少量啊，接下来一两个月市场供货量肯定很猛了。

统计西安新房中，精装房和毛坯房的数量：

可以看出来，毛坯房才是市场主流。

统计西安新房中，各个面积段的新房数量：

看的出来，主流面积段还是100-150的。

统计西安新房中，各个面积段的平均单价，由高到低排序：

总体来看，果然还是面积越大，单价越高啊。

好了，开头的问题，看到这里你肯定就有了答案，写完收工。如果还想知道从其他维度统计的结果，可以留言补充。

最后提一个直击灵魂的问题：

一个程序员写多少行代码，才能买下西安高新一套房？

posted @ 2022-08-03 09:24 dijia478 阅读(471) 评论(2) 收藏举报

刷新页面返回顶部

dijia478