随笔分类 -  web数据采集和数据挖掘

关注web数据采集,海量数据的加工处理,从海量信息中提取有用信息。
摘要:经常看到一些朋友在讨论如何采集flash中的数据,讨论来讨论区,结论就是:flash不能采集,其实也不总是这样。本篇就跟大家分享如何采集flash中的数据。在开始之前,先说明一下:一般来说flash中的数据是不能被现有技术很容易采集到的,但是也不能谈flash色变,要具体问题具体分析,有些flash是可以通过一些分析发现背后的数据。然后采集就变得很容易了。具体案例:搜房房价走势采集。先看看房价走势页面:http://baolishangcheng.soufun.com/house/2810932360/fangjia.htm可以看出,这是个flash的,还有很多鼠标移动上去显示的数据。右键点击 阅读全文
posted @ 2013-11-13 09:38 流浪的军刀 阅读(4840) 评论(1) 推荐(0) 编辑
摘要:目录:web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加写了上篇验证码破解的文章后,有朋友在群里表示希望看到更深入的应用,所以今天就跟他家一起讨论一下如 阅读全文
posted @ 2012-08-10 10:15 流浪的军刀 阅读(5483) 评论(6) 推荐(6) 编辑
摘要:先加个目录,方便大家查看web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加速度进入主题,这次的话题有点大,也有点难度,所以可能一篇说不完,先写一篇,回头 阅读全文
posted @ 2012-08-06 16:16 流浪的军刀 阅读(4711) 评论(10) 推荐(4) 编辑
摘要:目录:web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加上篇web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?刚发布,本想 阅读全文
posted @ 2012-08-04 15:41 流浪的军刀 阅读(4481) 评论(11) 推荐(3) 编辑
摘要:目录:web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。加群请输入暗号“数据采集”,否则不加很久没有写博客了,一直在默默的学习,经常感到网上太多太多的技术分享都是入门级别的转载,想要找点核 阅读全文
posted @ 2012-08-04 11:35 流浪的军刀 阅读(6045) 评论(45) 推荐(8) 编辑