随笔分类 -  数据分析和挖掘

摘要:帝都去年房价涨得太吓人,对于我们这些北漂,就算买不起房,也要租到称心如意的房子! 沙漠之鹰在2016年春节之后写过一篇《[2016年北京租房攻略][1]》(强烈建议阅读),反响还不错。一年过去了,是时候写一篇2017年的攻略了!为了避免重复,先划出2016年文章的重点,除了平均价格上涨15%,其他结 阅读全文
posted @ 2017-04-13 15:05 FerventDesert 阅读(1527) 评论(1) 推荐(4) 编辑
摘要: - 13位用户编码真的是随机的吗? - 摇号池中有哪些未曾发现的规律和模式? - 我们能否用机器学习的方式预测摇号结果? 阅读全文
posted @ 2016-09-26 23:16 FerventDesert 阅读(2240) 评论(0) 推荐(1) 编辑
摘要:(本文成文于2015年8月3日) "大数据"已经成了一个风口,几乎所有人都在谈论它。但真正理解其核心概念的人屈指可数,我也在其边缘徘徊。但起码我知道: 数据很重要 ,没有数据,一切大数据都是耍流氓; 比数据更重要的是结构 ,杂乱的数据几乎不可能由人来手工处理。而送入强大的机器算法之前,必须将数据结构 阅读全文
posted @ 2016-04-27 09:34 FerventDesert 阅读(1965) 评论(1) 推荐(0) 编辑
摘要:(本文成文于2015年11月12日,为作者原创,发布在博客园方便诸君阅读) 前段时间发了一篇分析房价的文章,于是这两天在微信上咨询我的朋友络绎不绝。今天是光棍节,我什么都没抢到。下午,有一位学姐在微信上找我,怀着激动的心情打开微信。 学姐说,“看到你之前发的文章了,能不能帮我在北京选一套婚房啊?” 阅读全文
posted @ 2016-04-02 17:59 FerventDesert 阅读(2236) 评论(4) 推荐(8) 编辑
摘要:etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具备如下特点 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置线程池,支持串行和并行处理 内置正则解析,html转义,json转换等数据清洗功能,直接输出可用文件 阅读全文
posted @ 2016-03-25 18:34 FerventDesert 阅读(30757) 评论(5) 推荐(15) 编辑
摘要:应不少读者的要求,笔者总结北京2014年到2015年涨幅较大的几个区域,并按照涨价百分比(而非绝对涨价值)绘制了如下的北京楼市涨跌地图: 同时,笔者总结了涨价幅度较高的六大区域(凑个吉利数字吧(∩_∩))。 第六名.东城区(东西城合并?平均涨价14%) 东城区虽然属于中心城区,但在教育上一直无法与西 阅读全文
posted @ 2016-03-11 14:06 FerventDesert 阅读(972) 评论(1) 推荐(0) 编辑
摘要:买房是一件大事,好处是你再也不用担心年年涨价的房租,不用住墙壁脱皮的次卧,能挑选自己心爱的家具和心爱的人温馨的住在一起。坏处是更久的通勤时间和每个月的按揭。反正房奴和蚁族,总得二选一嘛。 在北京买房子,更是难上加难,绝大多数人只能考虑二手房。我们今天就聊一下,如何在北京买到自己心仪的房子。 买房第一 阅读全文
posted @ 2016-03-11 14:01 FerventDesert 阅读(1633) 评论(3) 推荐(0) 编辑
摘要:作者注:本文为“沙漠之鹰”原创文章,为了保证行文流畅,没有插入实现代码,简单统计分析博客园的读者应该都能做。 过年之后,很多人选择租房。我的不少朋友告诉我,"之前你发布的北京买房攻略很有意思,可是不接地气啊,能不能分析一下帝都租房的情况啊"! 我想也是,于是下班之后,配置了爬虫工具,从北京各大中介网 阅读全文
posted @ 2016-03-08 08:57 FerventDesert 阅读(11598) 评论(53) 推荐(50) 编辑