2010 年 4月 27 日随笔档案 - searchDM

2010年4月27日

摘要： http://www.cnblogs.com/cyq1162/archive/2010/04/18/1349062.html很久以前，写过一个手机的搜索查询，这里要涉及到手机类型和型号的分离。很久之后前，有人问起这个问题，于是，写点说明就把这函数的草稿发布了，并写下了这一些说明。函数说明，如搜索输入：诺基亚N95,将被拆分成品牌：诺基亚型号：N95 对于手机数据采集，也可以用这函数分离出品牌... 阅读全文

posted @ 2010-04-27 22:34 searchDM 阅读(280) 评论(0) 推荐(0)

大数据量的过滤 (用于爬虫,蜘蛛) Bloom Filter 布隆过滤器

摘要：大数据量的过滤 (用于爬虫,蜘蛛) Bloom Filter 布隆过滤器想像一下.如果你有一个非常大的无序的数据(url连接) 并且你要保证同样的一条连接不会在其它地方再次出现你实时的收集哪些数据,你没有办法来预防两个相同的url出现,再不断增加的数据当中. 当这些数据是少的时候你可以轻松的创建一个list(dictonary or hashtable 或者你自已的数据结构)然后遍历它们,看它... 阅读全文

posted @ 2010-04-27 22:28 searchDM 阅读(492) 评论(0) 推荐(0)

Lucene基础排序算法改进

摘要： Lucene基础排序算法改进 Lucene基础排序算法: score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t) score_d: Document(d) 的得分 sum_t: Term(t) 的总和 tf_q: 查询中 t 的频度的平方根 tf_q: d 中 t 的频度的平方根 idf_t: log(numDocs/d... 阅读全文

posted @ 2010-04-27 22:21 searchDM 阅读(426) 评论(0) 推荐(0)

TF-IDFzz

摘要：在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）对于在某一特定文件里的词语 ti 来说，它的重要性可表示为： Tfi,j=ni,j/Σnk,j 以上式子中 ni,j是该词在文件dj中的出现次数，而分... 阅读全文

posted @ 2010-04-27 22:19 searchDM 阅读(259) 评论(0) 推荐(0)

谈谈BM25评分

摘要：谈谈BM25评分1 什么是BM25 摘录一段wiki BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the... 阅读全文

posted @ 2010-04-27 22:18 searchDM 阅读(603) 评论(0) 推荐(0)

MonetDB 改变用户默认口令

摘要： MonetDB 改变用户默认口令让mserver启动在命令交互模式下，输入 clients.changePassword("old_pass","new_pass"); 应该是MAPI支持的功能 http://homepages.cwi.nl/~mk/MonetDB/MAL-Instructions.htmlhttp://hi.baidu.com/kissdev/blog/item/568f1... 阅读全文

posted @ 2010-04-27 22:14 searchDM 阅读(322) 评论(0) 推荐(0)

Hadoop常见问题与解决方法汇总

摘要：下面是Hadoop使用过程中常见错误及解决方法的汇总（英文部分会后续转为中文） 1. Too many open files错误有時候 Map Reduce 的工作跑一跑，會發現 datanode 突然都陣亡，去看 log 會發現很多 Too many open files 的錯誤： 2008-09-11 20:20:22,836 ERROR org.apache.hadoop.dfs.Da... 阅读全文

posted @ 2010-04-27 22:12 searchDM 阅读(1130) 评论(0) 推荐(0)

Hadoop MapReduce 学习

摘要： MapReduce 1. Map: (K, V) -> (K', V') 2. 合并相同K'值的项 (K', V') -> (K', V' *) 3. Reduce (K', V'*) -> 新的(K,V) Hadoop实现自动的 Fail-over, Redistribute M/R tasks Hadoop为Master/Slave结构 1 Master ( ... 阅读全文

posted @ 2010-04-27 22:12 searchDM 阅读(470) 评论(0) 推荐(0)

Hadoop脚本:重新初始化所有节点

摘要： Hadoop脚本:重新初始化所有节点在Hadoop集群调试的初期，经常需要重新初始化HDFS，下面的脚本可以实现此点 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; $masters = f2a(HADOOP_HOME . '/conf/masters'); $slaves = f2a(HA... 阅读全文

posted @ 2010-04-27 22:11 searchDM 阅读(763) 评论(0) 推荐(0)

Hadoop脚本:自动搜集所有节点上的异常信息

摘要：还是PHP当道，自动从Hadoop集群的所有节点的Log中发现异常（ERROR)，并打印出来其中作法很简单，ssh到每个节点上用grep搜索，使用PHP的SSH2扩展库 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; function check_log($host, $match, $key... 阅读全文

posted @ 2010-04-27 22:10 searchDM 阅读(301) 评论(0) 推荐(0)

Hadoop脚本：用Streaming方式使用Hadoop

摘要：为方便用Streaming方式使用Hadoop，使用如下的脚本map_reduce.sh -------------------------------------- #!/bin/bash if [ $# -lt 3 ] then echo "Usage: map_reduce.sh <input> <output> <mapper> [reducer] [... 阅读全文

posted @ 2010-04-27 22:10 searchDM 阅读(339) 评论(0) 推荐(0)

Hadoop入门：最应该看的几篇文章

摘要： Hadoop是一个海量数据处理平台，以下是非常高质量的学习Hadoop的入门文章： 1. InfoQ上的分布式计算开源框架Hadoop介绍分为三章，系统性的介绍了Hadoop , HDFS结构、集群配置方法和编程。 2. IBM DeveloperWorks上的教程：用 Hadoop 进行分布式并行编程，也Hadoop Eclipse Plugin.是分为三部分（如果你找不到其他两部分，... 阅读全文

posted @ 2010-04-27 22:09 searchDM 阅读(632) 评论(0) 推荐(0)

Hadoop:你所不知道的一些相关项目

摘要： Hadoop:你所不知道的一些相关项目根据Hadoop Wiki上的说法很多公司都在用Hadoop，但是并没有多少可实质上借鉴的代码而下面这些开源的基于Hadoop的项目你听说过吗？ 0. Hadoop上的机器学习Mahout http://lucene.apache.org/mahout/ 1. Cascading: 类似管道状的工作流包装库，和 Pig 项目类似 http://www... 阅读全文

posted @ 2010-04-27 22:09 searchDM 阅读(360) 评论(0) 推荐(0)

有多少项目准备和Hadoop比拼？

摘要：有哪些项目能够PK目前最红的Hadoop? 以下是目前同Hadoop一样实现MapReduce分布式处理模式的项目： 1. Sector, 自己实现了类似GFS的文件系统和处理库，被用于处理TB级的天文数据，参见http://sector.sourceforge.net/ 其自称与Hadoop的PK结果如下： Hadoop Sector Storage Unit Blocks. Better... 阅读全文

posted @ 2010-04-27 22:07 searchDM 阅读(549) 评论(0) 推荐(0)

[SaaS研究] SaaS在中国 / 中国的Salesforce / 阿里巴巴 / 阿里软件 [ 转 ]

摘要：关于SaaS和Salesforce 过去，传统的软件必须有购买、安装、维护、升级软件等一系列自己建造的方式。但“随需应用”在线租用模式，使用户不再需要购买任何软件包和硬件，只需每年支付一定费用，就可以通过互联网随时使用自己所需要的服务。同时，企业可以随时开通新账户、增加新的功能模块，软件应用更简单、灵活。这被业内称为 SaaS（Software as a Service... 阅读全文

posted @ 2010-04-27 22:06 searchDM 阅读(752) 评论(0) 推荐(0)

开放源码的云计算平台：触手可及的云计算 [ 原 ]

摘要： 1. Enomalism SourceForge上的开源项目，提供类似Amazon EC2的服务，实际上是一个虚拟机的管理平台 2. Euclyptus http://eucalyptus.cs.ucsb.edu/ UCSB ( University of California, Santa Barbara )的研究项目，提供与 Amazon EC2相同的接口 3. AppDrop http:... 阅读全文

posted @ 2010-04-27 22:06 searchDM 阅读(313) 评论(0) 推荐(0)

Hadoop的应用经验文章搜集 [2008.11版][转]

摘要： [ Hadoop 实战：谁是最倒霉的人？ ] 这次尝试用 Hadoop 来写一个简单的应用。要解决的问题是这样的：现在我手里有大量的邮件数据，并且我知道每封邮件是正常邮件还是垃圾邮件，现在我想要找出收到的邮件中垃圾邮件最多的人，亦即找出“谁是最倒霉的人”。首先是 Map 的过程，输入数据是一封一封的邮件，彼此之间没有任何关联，因此可以很自然地分组处理。Map 将邮件... 阅读全文

posted @ 2010-04-27 22:05 searchDM 阅读(624) 评论(0) 推荐(0)

云计算的四个特点

摘要： [ 来自谷歌中国Blog ] 和传统的单机或网络应用模式相比，云计算有四个非常显著的特点。首先，云计算提供了最可靠、最安全的数据存储中心，用户不用再担心数据丢失、病毒入侵等麻烦。很多人觉得数据只有保存在自己看得见、摸得着的电脑里才最安全，其实不然。你的电脑可能会因为自己不小心而被损坏，或者被病毒攻击，导致硬盘上的数据无法恢复，而有机会接触你的电脑的不法之徒则可能利用各种机会窃取你的数据。... 阅读全文

posted @ 2010-04-27 22:05 searchDM 阅读(1835) 评论(0) 推荐(0)

两个微型的Map/Reduce框架: FileMap(FM)和BashReduce

摘要：两个微型的Map/Reduce框架: FileMap(FM)和BashReduce－ FileMap ( http://mfisk.github.com/filemap/ ) 用python写成，只有一个文件，实现了基于文件的并行M/R操作－与此异曲同工的是，在bashReduce项目中（http://github.com/erikfrey/bashreduce/tree/master )... 阅读全文

posted @ 2010-04-27 22:04 searchDM 阅读(471) 评论(0) 推荐(0)

Hadoop中文文档 (0.19.0)

摘要： Hadoop中文文档 ( Aliababa团队翻译 ) http://hadoop.apache.org/core/docs/r0.19.0/cn/quickstart.html 阅读全文

posted @ 2010-04-27 22:04 searchDM 阅读(662) 评论(0) 推荐(0)

分布式文件系统GlusterFS

摘要： GlusterFS是一个高层次的分布式文件系统解决方案。通过增加一个逻辑层，对上层使用者掩盖了下面的实现，使用者不用了解也不需知道，文件的存储形式、分布。内部实现是整合了许多存储块（server）通过Infiniband RDMA或者 Tcp/Ip方式互联的一个并行的网络文件系统，这样的许多存储块可以通过许多廉价的x86主机，通过网络搭建起来。其相对于传统NAS 、SAN、Raid的优点就是：... 阅读全文

posted @ 2010-04-27 22:01 searchDM 阅读(1230) 评论(0) 推荐(0)

Hadoop的商业化支持

摘要： CloudEra 提供了较为完整的商业解决方案（免费），从数据导入的Sqoop到管理工具 CloudEra Desktop。http://www.cloudera.com/products-services/ 阅读全文

posted @ 2010-04-27 21:59 searchDM 阅读(218) 评论(0) 推荐(0)

Yahoo的Hadoop版本

摘要： Yahoo的Hadoop版本http://developer.yahoo.com/hadoop/distribution/ 阅读全文

posted @ 2010-04-27 21:59 searchDM 阅读(318) 评论(0) 推荐(0)

基于 Apache Mahout 构建社会化推荐引擎【链接】

摘要： Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Maho... 阅读全文

posted @ 2010-04-27 21:58 searchDM 阅读(641) 评论(1) 推荐(1)

Map/Reduce and Queues for MySQL Using Gearman

摘要： Presentation: Map_Reduce and Queues for MySQL Using Gearman Presentation [PDF] 阅读全文

posted @ 2010-04-27 21:55 searchDM 阅读(184) 评论(0) 推荐(0)

lucene下的一个自定义分词

摘要： public class ICTCLASAnalyzer : Analyzer { //定义要过滤的词 public static readonly System.String[] CHINESE_ENGLISH_STOP_WORDS = new string[428]; public string NoisePath = Environment.CurrentDirectory + "\\dat... 阅读全文

posted @ 2010-04-27 21:51 searchDM 阅读(246) 评论(0) 推荐(0)

基于朴素贝叶斯分类器的文本分类算法C#版

摘要：该程序用到了Lucene.Net,用到了基于词典的ICTCLAS中文分词1.0. ICTCLAS中文分词for Lucene.Net接口代码(实现Analyzer): Code 1usingSystem; 2usingSystem.Collections.Generic; 3usingSystem.Text; 4usingSystem.IO; 5 6usingLucene.Net.Analysis... 阅读全文

posted @ 2010-04-27 21:45 searchDM 阅读(562) 评论(0) 推荐(0)

基于朴素贝叶斯分类器的文本分类算法（上）

摘要：作者：phinecos（洞庭散人） Blog：http://phinecos.cnblogs.com/ Email：phinecos@163.com Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识，为了将其应用到实际中来，参考了网上许多资料，从而得此文。文章将分为两个部分，第一部分将介绍贝叶斯学习的相关理论(如... 阅读全文

posted @ 2010-04-27 21:44 searchDM 阅读(355) 评论(0) 推荐(0)

HtmlParser设计解析(1) - 解析器模式(Interpreter)

摘要： HtmlParser设计解析(1) - 解析器模式(Interpreter) 对于HtmlParser的使用，这方面的介绍很多，而且详细。前段时间我将HtmlParser的源码读了一篇，在此，总结下其HtmlParser的设计，跟大家交流，我们只关注是设计。一、Filter设计 NodeFilter 是htmlParser主要的提取节点的一种方式，其结构灵活，通过组合解释器查找页面上的任一个... 阅读全文

posted @ 2010-04-27 21:42 searchDM 阅读(443) 评论(0) 推荐(0)

hbase-writer

摘要： http://code.google.com/p/hbase-writer/What is HBase-Writer?HBase-Writer is an extension to the Heritrix open source crawler written by the Internet Archive (http://crawler.archive.org/) that enables i... 阅读全文

posted @ 2010-04-27 21:40 searchDM 阅读(344) 评论(0) 推荐(0)

Initial Release - HBase-Writer 0.18.1 Released

摘要： HBase-Writer (http://code.google.com/p/hbase-writer/) is designed to be extensible but as it is, it can be used as a powerful web crawling tool. Out of the box, HBase-Writer is ready to write the cra... 阅读全文

posted @ 2010-04-27 21:39 searchDM 阅读(350) 评论(0) 推荐(0)

lucene .NET 搜索图片功能实现

摘要： lucene .NET 搜索图片功能实现收藏关于搜索部分 1想建立索引。构建jpg图片解析器，在索引时将jpg图片的exif信息及其文本信息如名称，存放路径，大小，日期等等加入索引！具体实现代码如下： public void BulidIndex(string path)//创建索引 { DateTime biStart = DateTime.Now;//创建索引开始 Directo... 阅读全文

posted @ 2010-04-27 21:37 searchDM 阅读(695) 评论(0) 推荐(0)

Solr data import 中XML/HTTP 数据源的使用

摘要： Solr data import 中XML/HTTP 数据源的使用参考自：http://wiki.apache.org/solr/DataImportHandler DataImportHandler可以通过datasource数据源索引来自于HTTP的数据。包括REST/XML和RSS/ATOM。在版本1.4中，推荐使用URLDataSource。配置示例如下： Xml代码 <da... 阅读全文

posted @ 2010-04-27 21:29 searchDM 阅读(697) 评论(0) 推荐(0)

使用Solr Data Import的delta-import功能

摘要：使用Solr Data Import的delta-import功能 Solr提供了full-import和delta-import两种导入方式，这篇文章主要讲解后者。所谓delta-import主要是对于数据库（也可能是文件等等）中增加或者被修改的字段进行导入。主要原理是利用率每次我们进行import的时候在solr.home\conf下面生成的dataimport.properties文件，此... 阅读全文

posted @ 2010-04-27 21:28 searchDM 阅读(1181) 评论(0) 推荐(0)

wycg1984

公告