摘要: 经常看到一些朋友在讨论如何采集flash中的数据,讨论来讨论区,结论就是:flash不能采集,其实也不总是这样。本篇就跟大家分享如何采集flash中的数据。在开始之前,先说明一下:一般来说flash中的数据是不能被现有技术很容易采集到的,但是也不能谈flash色变,要具体问题具体分析,有些flash是可以通过一些分析发现背后的数据。然后采集就变得很容易了。具体案例:搜房房价走势采集。先看看房价走势页面:http://baolishangcheng.soufun.com/house/2810932360/fangjia.htm可以看出,这是个flash的,还有很多鼠标移动上去显示的数据。右键点击 阅读全文
posted @ 2013-11-13 09:38 流浪的军刀 阅读(4840) 评论(1) 推荐(0) 编辑
摘要: 目录:web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加很久没有写博客了,一直在默默的学习,经常感到网上太多太多的技术分享都是入门级别的转载,想要找点核 阅读全文
posted @ 2012-08-04 11:35 流浪的军刀 阅读(6046) 评论(45) 推荐(8) 编辑
摘要: 写了前面两篇之后,自己也反思了一下,认真听取各位的意见之后,让我对如何走好职业人生路有了新的想法。说说自己的情况吧,去年10月,因工作需要,我换了部门到了新的tech team,当时加我3个开发,我们编制的开发有4个,当时有一个open的职位在招人,我来之后不到一个月,team leader离职去了一家很牛的公司,另一个有5、6年开发经验的因为人少工作压力大,也跟着离职,突然,就剩下我一个,事情很... 阅读全文
posted @ 2010-03-11 21:38 流浪的军刀 阅读(3688) 评论(26) 推荐(6) 编辑
摘要: 在园子里混了6年,没数过自己写过多少行代码,掐指一算,大概也有50万行吧,最近两年写的一个东西就有十几万行,这几十万行见证了自己的成长,也影响了下一个六年。大家都知道在深圳,除了浮躁还是浮躁,如果想要好好历练自己的技术,还真不是一件容易的事情,就连很多计算机科班出身的人都在2年,3年选择了转型,做了其他,相反很多像我一样,非科班出身的,反而一直把代码当做一种爱好坚持了下来。人生的道路都是自己的选择,所以不能跟别人比,只能跟自己比。回顾自己这六年走过的路,就是一段段代码铺出来的,最早来深圳做研发,作为一个机械专业毕业的门外汉,闹了不少笑话,跟经理说数据库5千行,好大啊,被笑了一年,如今每天几百万 阅读全文
posted @ 2013-11-30 22:33 流浪的军刀 阅读(7547) 评论(75) 推荐(57) 编辑
摘要: 随着大数据和社交网络的火爆发展,社交网络上产生的数据也越来越有价值,特别是微博微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值将非常巨大, 要采集的数据为指定城市的所有微博用户的相关信息。比如微博名称,微博地址,微博数量,粉丝数量,名片等等,进入正题,看看具体一步一步怎么操作来实现的。打开八爪鱼采集器,新建一个任务之后,如下图选择分组:新浪微博,这里其实随便什么分组都可以,我是把新浪微博专门放了一个分组,以便管理采集微博的多个任务。任务名称,这里按照自己的情况输入即可,我这里采集的是沈阳的微博信息。然后输入备注。然后就到了设计采集流程的界面,这个界面看起来复杂 阅读全文
posted @ 2013-11-28 23:51 流浪的军刀 阅读(6267) 评论(5) 推荐(1) 编辑
摘要: 又是很久没写博文了,不是不想写,是很想,只是太忙,先给大家看看最近在忙的一个东西,这个不止是我一个人的心血,也是我们团队努力的结晶,请大家赐教:稍后再给大家分享视频背后的故事。 阅读全文
posted @ 2013-11-02 00:02 流浪的军刀 阅读(811) 评论(1) 推荐(1) 编辑
摘要: 目录:web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加写了上篇验证码破解的文章后,有朋友在群里表示希望看到更深入的应用,所以今天就跟他家一起讨论一下如 阅读全文
posted @ 2012-08-10 10:15 流浪的军刀 阅读(5483) 评论(6) 推荐(6) 编辑
摘要: 先加个目录,方便大家查看web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加速度进入主题,这次的话题有点大,也有点难度,所以可能一篇说不完,先写一篇,回头 阅读全文
posted @ 2012-08-06 16:16 流浪的军刀 阅读(4713) 评论(10) 推荐(4) 编辑
摘要: 目录:web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加上篇web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?刚发布,本想 阅读全文
posted @ 2012-08-04 15:41 流浪的军刀 阅读(4484) 评论(11) 推荐(3) 编辑
摘要: 写了前一篇:重启博客,回味在深圳打拼的软件从业生涯,与同路人共勉 ,很多人加我好友,跟我谈心。这让我在倍感职业道路艰辛苦楚的同时,也很欣慰有这么多同路人,互相搀扶,不舍不弃,都在为了梦想而打拼,其中很多都是80后,和我同龄,因此有了更多的共同心声。打工 VS 创业开这个系列,一是回味自己,二是共勉路人,因此,也毫不避讳的把自己心里最纠结的话题一一拿来剖析。除了工作之外,也许每个人都渴望自己创业,当... 阅读全文
posted @ 2010-03-06 00:05 流浪的军刀 阅读(3028) 评论(19) 推荐(5) 编辑