lanceyan

观澜而索源 化繁为简 化简为易

随笔分类 -  jeeframework

社会化海量数据采集爬虫框架搭建
摘要:随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整个过程主要为 网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。123456789101112131415161718192021222324252627 阅读全文

posted @ 2013-07-26 09:21 lanceyan 阅读(3874) 评论(11) 推荐(12) 编辑

实战做项目如何选择开源许可协议(二)- 开放代码
摘要:通过《实战做项目如何选择开源许可协议(一)-了解协议》大概知道了有哪些开源协议和各个协议的作用和区别。我们准备把代码开放出去时,需要了解各个代码托管平台如何设置开源协议。目前常用的平台有:googlecode、github、sourceforge、codeplex。下面分别列一下这些平台如何设置开源协议:1、googlecode,google推出的代码托管平台,整体可用还是比较强的,如果不是经常被墙用这个也可以。支持svn、git协议。要在这个上面共享代码,首先需要注册一个google账号,登录。在url输入http://code.google.com/intl/zh-CN/,打开网页后,最下 阅读全文

posted @ 2013-07-17 08:12 lanceyan 阅读(1635) 评论(1) 推荐(5) 编辑

实战做项目如何选择开源许可协议(一)-了解协议
摘要:目前国内开源项目正在逐渐升温,中国也开始有不少优秀的开源项目突显出来。在大家摩拳擦掌准备加入开源大军时,也要知道这个圈子里的规则。技术人员不能只是研究技术,任何圈子都有规则,要知道了才能玩得好。前段时间有件关于开源软件的事情挺热闹的,关于国内一个开发者把自己作品开源出来被别的公司的人拿去包装成自己的产品高价卖出去。大部分做开源软件的开发者都不太怎么关注版权这些,具体微博如下:hoowa_sun:做开源后,发现大部分都被别人拿去学习,然后copy,然后自己闭源卖出去。这里不缺乏大公司,有一家公司拿我的开源系统修改后卖给了一个国内的运营商,卖的还非常贵至少几十万一套。所以我郑重的建议大家,做软件还 阅读全文

posted @ 2013-07-05 10:00 lanceyan 阅读(1808) 评论(6) 推荐(6) 编辑

WEB框架的错误体系
摘要:不管是什么程序开发都可能会出现各种各样的异常。可能是程序错误,也可能是业务逻辑错误。针对这个各个开发人员都有自己的处理方式,不同的风格增加了业务系统的复杂度和维护难度。所以定义好一个统一的异常处理框架还是需要的。我们开发框架采用java实现,java中的异常一般分为两种,检查异常和运行时异常。检查异常(checked exception)有可能是程序的业务异常,这种异常一般都是开发人员自定义的、知道什么时候会抛出什么异常并进行捕捉处理。也可以是系统的异常,不捕捉编译不会通过,如 IOException、SQLException、ClassNotFoundException, 这种是必须要捕捉的 阅读全文

posted @ 2013-05-07 08:10 lanceyan 阅读(367) 评论(0) 推荐(0) 编辑

导航