摘要:1. 购物搜索的发展依赖于B2C的发展程度 垄断是搜索引擎的克星。关于此观点的更多阐述,请参考文章《垄断与搜索引擎的寄生理论》。C2C的小商家特点决定了平台的重要性。而平台的发展都是趋于垄断的,一旦C2C平台实现大统,平台内部的站内搜索将代替通用搜索成为用户入口,进而失去了C2C购物搜索存在的意义。 B2B同样是个垄断的领域。而且,由于B2B与其他电子商务模式的本质区别,B2B搜索的运营经验很难直...
阅读全文
随笔分类 - 搜索方面
Nutch, Lucene等
摘要:1. 购物搜索的发展依赖于B2C的发展程度 垄断是搜索引擎的克星。关于此观点的更多阐述,请参考文章《垄断与搜索引擎的寄生理论》。C2C的小商家特点决定了平台的重要性。而平台的发展都是趋于垄断的,一旦C2C平台实现大统,平台内部的站内搜索将代替通用搜索成为用户入口,进而失去了C2C购物搜索存在的意义。 B2B同样是个垄断的领域。而且,由于B2B与其他电子商务模式的本质区别,B2B搜索的运营经验很难直...
阅读全文
摘要:搜索引擎、淘宝与网络购物宏毅消费者要掏钱卖某种东西,肯定是他们认为值得掏钱。这是基本的道理,但是网络的出现让人们暂时忘记了很多简单的东西,一些假象迷惑了众人,比如,近期淘宝屏蔽了百度,无数人做了多种猜测。但是对于淘宝屏蔽百度,我的看法与众人都不一样。北京正望咨询有限公司最新发布的2007年中国网上购物状况调查报告显示:搜索引擎对网络购物中作用不大。我的结论也正与此类似,我认为,网络购物是网购人的行...
阅读全文
摘要:8848购物搜索引擎http://www.8848.net/ 作为中国最早的电子商务平台,8848网站企业曾经如日中天,然而却未能经受住世纪初互联网寒流的冲击,于2001年开始进入长时间的低迷状态。今年1月8日,8848重新复出,此次他们不再以从前的购物网形象出现,而是摇身一变成为我国第一个专用中文购物搜索引擎。 搜狗购物搜索引擎http://shopping.sogou.com/覆盖了上千家网上...
阅读全文
摘要:随着加入比较购物网站的服务商数量和产品数量的迅速增加,比较购物网站已经与搜索引擎具有类似的特征,即作为用户查询商品信息的工具,为制定购买决策提供支持,因此一些网站开始逐渐放弃比较购物一词,而改称为购物搜索引擎。 2004年3月26日,国外许多IT新闻网站发布了雅虎以5.75亿美元收购欧洲第一大比较购物网站Kelkoo的消息,这使得比较购物这一“古老”的商业模式获得了广泛关注...
阅读全文
摘要:随着人们对互联网搜索引擎技术的应用的日渐依赖。而中国的百度和美国的谷歌发展这么多年来,一直是海量信息搜索。在搜索结果让部分人部无法得到满足的情况下,国内陆续出现行业垂直门户网站.在近两年更是出现了比垂直门网站还要专业化的垂直搜索引擎网站.从而满足了特殊需求的网民. 搜索引擎发展至今,经历了由通用搜索到垂直搜索的演变,2009年更是各大垂直搜索百家齐放的春天。目前主要针对新涌现的行业垂直搜索引擎,李...
阅读全文
摘要:比较购物的出现,对消费者无疑是一种进步,有利于消除了消费者和商家和之间的信息不对称,使得消费者和商家成为平等的交易者,促进公开、公平的市场消费体系发展。可是对于比较购物与商家的关系,有这么一种意见,认为比较购物损害了商家的“利益”,所以他门之间是对立的关系;也有人认为,比较购物给商家带来消费者,促进销售,所以他们之间是互利的关系。那到底比较购物和商家之间是一种什么样的关系,...
阅读全文
摘要:用Hadoop搭建分布式存储和分布式运算集群Filed under: 搜索, 配置, 开发 — 钟 子昌 @ 7:59 pm 1. 列出使用的机器普通PC,要求:cpu: 750M-1Gmem: >128Mdisk: >10G不需要太昂贵的机器。机器名:finewine01finewine02finewine03将finewine01设为主节点,其它的机器为从节点。2. 下载和生成从这里ch...
阅读全文
摘要:五、文件系统元数据的持久化 Namenode存储HDFS的元数据。对于任何对文件元数据产生修改的操作,Namenode都使用一个称为Editlog的事务日志记录下来。例如,在HDFS中创建一个文件,Namenode就会在Editlog中插入一条记录来表示;同样,修改文件的replication因子也将往 Editlog插入一条记录。Namenode在本地OS的文件系统中存储这个Editlog...
阅读全文
摘要:一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至...
阅读全文
摘要:分析 WordCount 程序 我们先来看看 Hadoop 自带的示例程序 WordCount,这个程序用于统计一批文本文件中单词出现的频率,完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 目录中)。 1.实现Map类 见代码清单1。这个类实现 Mapper 接口中的 map 方法,输入参数中的 value 是文本文件中的一行,利用 StringTokeniz...
阅读全文
摘要:Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理...
阅读全文
摘要:IPC 实现RPC的一种方法,具有快速、简单的特点。 它不像Sun公司提供的标准RPC包,基于Java序列化。 IPC无需创建网络stubs和skeletons。 IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。 使用模型 采用客户/服务器...
阅读全文
摘要:Hadoop 的文件系统,最重要是 FileSystem 类,以及它的两个子类 LocalFileSystem 和 DistributedFileSystem。 这里先分析 FileSystem。抽象类 FileSystem,提高了一系列对文件/目录操作的接口,还有一些辅助方法。分别说明一下:1. open,create,delete,rename等,非abstract,部分返回 FSData...
阅读全文
摘要:Lucene是个高度优化的倒转索引搜索引擎。它将倒转的索引存储在定制的文件格式中,文件格式被高度优化以确保能被搜索器快速的加载以及有效的搜索。Lucene产生这些结构以致索引几乎完全的被预先计算好 Lucene 通过使用Directory接口的实现来存储索引,注意不要将Directory与java.io混淆了.FSDirectory 是Directory接口的一个标准的实现,它将索引保存在文件系...
阅读全文
摘要:2008-06-06 14:42 Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.0 似...
阅读全文
摘要:1. 2.0 以前的版本 Keyword: Field 的值将被保存到索引文件,为Field的值建立索引,建立索引时不需要分词。 UnIndexed: Field 的值将被保存到索引文件,不为Field...
阅读全文
摘要:搜索引擎是伴随着互联网信息扩展营运而生的,其目的是为了帮助网民在海量信息中去粗存精,找到自己所需的信息。在一项调查表明,在过去的一年中,使用搜索引擎查找信息的互联网用户正在大幅度增加,成为仅次于电子邮件,位居第二的互联网任务。然而,Google、百度、雅虎等众多的知名搜索引擎各有特色,追求搜索的成名之道,一个主要原因就是面对互联网海量信息的积累,人们已经无法适应互联网的快节奏生活,于是搜索...
阅读全文
|