摘要: Hawk 数据抓取工具:简明教程 标签(空格分隔): Hawk Hawk: Advanced Crawler& ETL tool written in C /WPF 1.软件介绍 HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽,阅读全文
posted @ 2016-05-03 12:48 FerventDesert 阅读(25016) 评论(49) 编辑
摘要: 进博客园四年多,从第一篇讨论地图显示的文章到现在,已经有80多篇文章了。此处总结一下写过的文章并作分类,方便大家查看。革命尚未成功,同志仍需努力!个人邮箱 buptzym@qq.com数据分析,编译和模式用数据说话:北京房价数据背后的数据《编程语言实现模式》笔记(一)词法和句法分析数据挖掘工具分析北...阅读全文
posted @ 2013-07-16 09:55 FerventDesert 阅读(3029) 评论(3) 编辑
摘要: 没有隐私的时代 互联网社会,个人难有隐私可言,倒卖信息和电信诈骗比比皆是,然而这只是冰山的一角。数据是金矿,厂商花费高额成本收集用户数据都用于做什么呢? ![此处输入图片的描述][1] 虽然让别人知道自家门牌号和电话是件很可怕的事情。但明确信息不一定最有价值,因为这些很可能是用户刻意伪造或是不准确的阅读全文
posted @ 2018-01-01 19:22 FerventDesert 阅读(29) 评论(0) 编辑
摘要: 针对IEnumerable已经有多篇文章,本篇介绍如何使用IEnumerable实现ETL. ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。通常来说,从原始端采集的数阅读全文
posted @ 2017-12-18 19:49 FerventDesert 阅读(166) 评论(1) 编辑
摘要: 不想在北京呆了! 最近几天在北京呆不下去了!每天挤地铁被大叔的体香拥抱也就罢了,出门就被有毒的雾霾淹没,回了家还冻成狗,盖了三床被子都冷! 讲道理,今年夏天天气不错,我本来想给北京天气贴个小红花的,可是胶水还没干,10月份开始,重雾霾几次冲击北京,原来危害北京的上班族的,不仅有过劳死,还有毒雾霾! 阅读全文
posted @ 2017-12-18 19:41 FerventDesert 阅读(347) 评论(5) 编辑
摘要: 浮躁已经成了普遍的社会现象。判断一个人是否浮躁非常容易,看他一天主动拿起手机的次数就可以了。据TED的演讲者说,这个值一般是50次,除了8小时的睡觉之外,基本上每20分钟就要去翻翻手机。 你会去用手机做什么?看微信,票圈,微博,知乎,淘宝,或只是来回刷首页。我们不是名人,没人关心你在社交网络上的行动阅读全文
posted @ 2017-12-18 19:05 FerventDesert 阅读(8976) 评论(82) 编辑
摘要: 0. 如何入门数据分析 关注沙漠之鹰的同学一定看过沙漠君写得很多篇数据分析文章,比如分析房价,车价,预测机动车摇号这些话题。其实文章中所有的分析都使用了Python和它非常强大的数据分析库Pandas。一些机器学习和预测的功能则用到了sklearn库。掌握了这些工具,就能应对绝大多数的分析需求。 纸阅读全文
posted @ 2017-07-10 08:33 FerventDesert 阅读(941) 评论(1) 编辑
摘要: 本文是笔者阅读《推荐系统实战》后的一篇读书笔记,包括了笔者的一部分浅显思考。书质量非常不错,有问题欢迎指正! 什么是好的推荐系统 推荐系统一般有两种:一种是预测用户评分,另外是给出TopN,但后者会更频繁更有用。因为预测分数并不能怎么样。“重点是他看了,而不是评价”。下面都以TopN为主。 衡量推荐阅读全文
posted @ 2017-07-09 10:12 FerventDesert 阅读(752) 评论(1) 编辑
摘要: 拥有博客和公众号,认识的人变多了起来,自然就会有需求过来希望能够帮忙,我会耐心地听完他的需求,然后很诚恳地说:抱歉我没有多少时间做,但我知道你可以找谁谁谁,这里有哪些坑... 生活不易,程序员接私活似乎成了补贴家用的一种做法。然而“钱难赚,屎难吃”却是千古真理,一两千级别的活,足够你忙活一个周末;而阅读全文
posted @ 2017-06-17 18:14 FerventDesert 阅读(8980) 评论(12) 编辑
摘要: 本文是如何《[优雅地实现Python通用多线程/进程并行模块][1]》的后续。因为我发现,自认为懂了一点多线程开发的皮毛,写了那么个[multi_helper][2]的玩意儿,后来才发现我靠原来就是一坨屎。自己辛苦开发的并行库,在Python的原生类库中就有了优雅地多的实现。并且还有更优雅的asyn阅读全文
posted @ 2017-06-06 10:26 FerventDesert 阅读(150) 评论(0) 编辑
摘要: 考虑将并行的所有逻辑封装到一个模块之内,向外部提供像串行执行一样的编程体验阅读全文
posted @ 2017-06-02 16:14 FerventDesert 阅读(2259) 评论(2) 编辑
摘要: 毕业后的2016年年初,搬入新家,总算不用在出租屋里鬼混了,于是就想把之前童年的梦想:智能家居+家庭影院好好实现一下~ 相比帝都高昂的房价,这些东东还凑合玩得起,不过在有限预算下实现尽可能定制和强大的功能会更有意思。我yy了以下几个场景: 每当下班回家,指纹解锁大门,家里温馨的灯光自动打开,天气热的阅读全文
posted @ 2017-05-20 16:26 FerventDesert 阅读(24432) 评论(142) 编辑