摘要: 定向数据网络爬虫和搜索引擎项目设计(新闻数据抓取、分析、加工、检索)版本号: v 1.0.0 编写人: 张 文 豪 日 期: 2014年6月10日文档说明:这个文档还在编写之中,文章中很多写在“保留”二字的不是每月东西,而是没有写。虽然没有具体实现,但是我觉得我把我的经验和思考都写进去了。虽然对于读... 阅读全文
posted @ 2014-06-13 15:44 ZhangWenHao 阅读(1028) 评论(0) 推荐(0) 编辑
摘要: 回到顶部jps命令jstat命令jinfo命令jmap命令jhat命令jstack命令列表名称说明javap命令java虚拟机性能监控与故障处理实践 联系作者: zhangwenhao3@sina.com 请保留文章出处:http://www.cnblogs.com/zhangwen... 阅读全文
posted @ 2014-05-27 17:07 ZhangWenHao 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 定向数据爬虫和搜索引擎(Directional Spider)设计(一) —— 元素分析前言页面定向数据抓取目的就是尽可能的抓取在互联网中获取到你感兴趣的数据。因为是定向抓取,同时需要保证对抓取的数据进行数据加工处理,做到对应的数据规范,方便后期检索。 简单的说这个的数据基础就是通信领域当中信息获取... 阅读全文
posted @ 2014-05-23 15:30 ZhangWenHao 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 以下是吐槽,诸位可以跳过…… 作为一个真正百科项目的开发,例如像百度百科一样的项目,其核心我觉得是一个强大的富文本编辑器,和与之关联展示和数据挖掘和分析。因为无论是用户(或者编辑)在编辑词条的时候觉得特别麻烦,然后展示效果特别不好看,这个系统都是失败的。我是一个后端工程师,但是根本的好用好看才是关键的,架构再好也是需要为这个服务的。你要是大公司的话,有雄心壮志做一个真正的文库系统的话,你就自己开发吧,xiwiki不适合您。一个最容易出现的问题是,你的百科产品会有设计根据当今的情况提出一系列设计,但是你的前端工程师会告诉你,xwik实现很多东西成本很高,不合适,甚至和当今很多前端的... 阅读全文
posted @ 2013-12-05 12:10 ZhangWenHao 阅读(3585) 评论(1) 推荐(0) 编辑
摘要: xwiki是一个开源百科系统,网上的二次开发介绍挺少的,这里会根据我开发中的具体问题进行总结。由于我是边开发边写本文,最开始我也会很多都不清楚,请大家多指教。目前xwiki的版本是5.2.1,我本地测试的版本是4.4.1 可能会有一些差异。需要环境:tomcat服务器、mysql数据库,jdk,1、下载xwiki地址:http://enterprise.xwiki.org/xwiki/bin/view/Main/Download其中包含了安装包和源代码包。(打开源代码你会发现是一堆maven项目,可能会修改的代码主要在xwiki-platform-master项目中。基本我们都是不需要修改ja 阅读全文
posted @ 2013-11-22 14:58 ZhangWenHao 阅读(3774) 评论(0) 推荐(0) 编辑
摘要: 基于jar:cglib 2.2数据库:mysql背景:目前正在写一个简单的新闻等文字分析系统(爬虫搜索引擎类型的,写着玩的),为了提高分析数据分析的效率,提高数据库与代码的交换效率,并没有使用hibernate等工具。但是这个系统也必须实现对查询结果的对象封装。思路:因此我采用特别查询到频繁的对象直... 阅读全文
posted @ 2013-10-30 16:38 ZhangWenHao 阅读(683) 评论(0) 推荐(1) 编辑