随笔分类 -  Search Engine

[探讨]分布式文件系统的应用及选择
摘要:当下,互联网行业发展非常迅猛,分布式文件系统在其中的应用也非常普遍。一些朋友问起一些相关问题,如:1. 搜索引擎类的那些页面文本文件存储,用什么DFS比较好?2. 海量小图片类的,如taobao里头,好多商家图片,用什么存储?3. 视频类的,如优酷,用什么DFS4. 海量空间地理图形信息类的?这都是非常有意义的问题。DFS有很多,各有自己的特点。1. 这个,HDFS似乎就可以满足。它只需要能把那些文本文件分块分散到各个节点上进行顺序存储就行了。缺点呢,就是:目前Hadoop只支持单用户写,不支持并发多用户写。可以使用Append操作在文件的末尾添加数据,但不支持在文件的任意位置进行修改。所以, 阅读全文

posted @ 2012-03-16 06:20 张长胜 阅读(219) 评论(0) 推荐(0)

泛企业搜索PK互联网搜索
摘要:也许,这几年过多的目光关注于互联网搜索,Google,Baidu市值的高涨,让人们对它们倍加关注。其实,搜索,不光是面向公众的互联网搜索。还有专注于企业内的非结构化数据搜索,它同样会面临着海量数据处理的技术问题,还有着其它方面更苛刻的要求,尤其是安全性,面对不同的用户,搜索到的内容是有区别的,甚至涉及到法律问题。而互联网搜索在这方面,几乎没有什么限制。泛企业搜索平台能够在全球性的企业机构中实现跨部门、多操作系统、多语言、多文件类型的自动信息检索、处理和管理。实际的泛企业搜索需求:能够访问所有数据源和文件类型:现今,企业内部80%的信息是非结构化的,由文字、音频和视频组成。而这类信息需要进行适当 阅读全文

posted @ 2009-03-01 20:42 张长胜 阅读(146) 评论(0) 推荐(0)

在一个目录下边快速创建大量文件及目录(使用dos batch)
摘要:@echooffsetnum=100000REMfor/L%%iin(1,1,%num%)doecho"hereis%%i"ifnotexisttmpmkdirtmpREM~for/L%%iin(1,1,%num%)dotouch"tmp/abc%%i.txt"for/L%%iin(1,1,%num%)doecho"abc%%i">"tmp/abc%%i.txt"for/L%%iin(1,1,%num%)domkdirtmp"abc%%i"dir/b/stmp>tmp.txtfor/ 阅读全文

posted @ 2008-03-18 13:01 张长胜 阅读(217) 评论(0) 推荐(0)

原来数据库也有"云"计算
摘要:在网上一搜数据库“云”计算,会出现一堆的帖子。也许,它会引领下一轮数据库发展的新潮流。下边是简要的摘了一小段,来描述,什么是“云计算”。当微软最近举办的MIX08互联网大会上宣布通过SQL Server数据业务将查询处理和存储功能带入到云计算领域的战略构想时,吸引了不少业内观察家的眼球。数 据库市场的其他主要竞争对手是否也会紧随其后推出自己的“云计算”产品和服务,在不久的将来我们知道,不过现在一切都还是未知之数。 分析家认为,微软的SQL Server数据业务并不是简单的把SQL Server放到网上,而是一项可扩展的“随需而变”的数据存储和查询处理网络服务,相当于Amazon的Simpl.. 阅读全文

posted @ 2008-03-15 18:18 张长胜 阅读(151) 评论(0) 推荐(0)

如何在Oracle中使用Java存储过程 (详解)
摘要:其实,这篇短文,我早就应该写了。因为,java存储过程今后在各大数据库厂商中越来越流行,功能也越来越强大。这里以Oracle为例,介绍一下java存储过程的具体用法。任何转载,请尊重版权。(作者:iihero on csdn)一、如何创建java存储过程?通常有三种方法来创建java存储过程。1. 使用oracle的sql语句来创建:e.g. 使用create or replace and compile java source named "<name>" as 后边跟上java源程序。要求类的方法必须是public static的,才能用于存储过程。SQL& 阅读全文

posted @ 2008-03-05 12:46 张长胜 阅读(502) 评论(0) 推荐(0)

sqlite3 jdbc、c接口、python接口处理中文时遇到的问题及其解决方法
摘要:sqlite(版本3),以下简称sqlite3,目前功能已经非常强大。目前支持的字符集,包括UTF-8, UTF-16,UTF-16le,UTF-16be。可是在我们直接使用gbk编码的时候,很可能就会遇到问题。因为目前,很多人会使用c/c++接口来访问sqlite3数据库,当然,也有人使用python接口来访问它。1. 使用python时,要想正确的取到c++接口insert/update以后的数据,需要设定Connection的text_factory值为str, 意思是直接使用原来存储时的encoding形式。con=sqlite3.connect(r"e:/t/testsql 阅读全文

posted @ 2008-03-03 12:41 张长胜 阅读(198) 评论(0) 推荐(0)

用python来解析xml文件(简单情况)
摘要:首先,sax解析最直观,当然,也可以容许xml文件出些错。先给定一个xml文件book.xml, <catalog><bookisbn="0-596-00128-2"><title>Python&amp;XML</title><author>Jones,Drake</author></book><bookisbn="0-596-00085-5"><title>ProgrammingPython</title><author 阅读全文

posted @ 2008-03-02 17:32 张长胜 阅读(320) 评论(0) 推荐(0)

Notepad++的几个使用技巧(tips)
摘要:作者:iihero(XiongHE),版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明.链接:http://iihero.8800.org/frog/user/seanho/article/2008-01-27/13在单位里不能使用试用版的ultraedit,更别说crack过的ultraedit了。买一份,也觉得价格昂贵,居然要35$,鬼子做的软件有时候还真蛮值钱的。其实,可供使用的免费的文件编辑器还是挺多的。 SciTE, TextPad, Notepad++都相当的不错。权当拿它们作为Ultraedit的替代品。我的机器上就同时安装了这三个编辑器。Tex 阅读全文

posted @ 2008-02-15 20:12 张长胜 阅读(252) 评论(0) 推荐(0)

jdbf中试图支持Foxpro的dbf数据类型
摘要:今天下午在更新jdbf包的时候,发现它对foxpro的dbf文件格式支持非常有限。在我的jdbf包里,只支持C, N, L, D, F五种类型,我试图扩充I (Integer)类型,几本上能通过。可是在扩充M(Memo), Y(Currency), T(Datetime)类型时,由于不知道它到底是怎么存储的,程序出错。如果时间充足,借助于hex dump工具,也许能分析出这几种类型在foxpro里是怎么存储的。sigh, 微软都快要放弃foxpro了,为什么格式还那么保密呢。 Code Type Leng... 阅读全文

posted @ 2008-02-13 21:08 张长胜 阅读(280) 评论(0) 推荐(0)