上一页 1 2 3 4 5 6 ··· 11 下一页
  2014年7月30日
摘要: Http用户识别的机制方法分为如下几种:1)、承载用户身份的HTTP首部2)、客户端IP地址跟踪,根据客户端IP地址进行识别3)、用户登录,用认证方式设别用户4)、使用胖URL,一种在URL中嵌入识别信息的技术5)、Cookie,一种持久化身份设别技术关于HTTP首部的相关信息在下列表格中列出。HT... 阅读全文
posted @ 2014-07-30 16:37 刀锋诚心 阅读(2455) 评论(0) 推荐(0) 编辑
  2014年7月29日
摘要: Mahout 阅读全文
posted @ 2014-07-29 18:20 刀锋诚心 阅读(1236) 评论(0) 推荐(0) 编辑
  2014年7月14日
摘要: Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。 1.下载二进制解压安装包。 到http://labs.renren.com/apache-mirror/mahout/0.9下载,我选择下载二进制包,直接解压即可。 $:tar -zxvf mahout-distribution-0.9.tar.gz ... 阅读全文
posted @ 2014-07-14 10:26 刀锋诚心 阅读(415) 评论(0) 推荐(0) 编辑
  2014年2月23日
摘要: 数据仓库技术包括 数据清理、数据集成、联机分析处理(OLAP)数据分类、聚类和数据随时间变化的特征数据挖掘:1数据清理(消除噪声和不一致的数据)2数据集成(多中数据源可以组合在一起)3数据选择(从数据库中提取与分析任务相关的数据)4数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作)5数据挖掘(基本步骤,使用智能方法提取数据模式)6模式评估(根据某种有趣度量,识别提供知识真正有趣的模式)7知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息中的大量数据挖掘有趣的知识的过程。基于这种观点,典型的数据挖掘系统具有以下 阅读全文
posted @ 2014-02-23 16:14 刀锋诚心 阅读(460) 评论(0) 推荐(0) 编辑
  2014年2月22日
摘要: Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时数据服务)。尽管应用需求差异很大,但是,针对Google的这些产品,Bigtable还是成功的提供了一个灵活的、高性能的解决方案。本论文描述了Bigtable提供的简单的数据模型,利用这个模型,用户可以动态的控制数据的分布 阅读全文
posted @ 2014-02-22 23:06 刀锋诚心 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们的设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。GFS完全满足了我们对存储的需求。GFS作为存储平台已经被广泛的部署在Google内部,存储我们的服务产生和处理的 阅读全文
posted @ 2014-02-22 23:05 刀锋诚心 阅读(1278) 评论(0) 推荐(0) 编辑
摘要: 摘要MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。采用MapReduce架构 阅读全文
posted @ 2014-02-22 23:04 刀锋诚心 阅读(211) 评论(0) 推荐(0) 编辑
摘要: leveldb的源代码进行学习,则纯粹是出于一个码农对美好世界进行探究的好奇。接下来将尽可能从源代码上给出leveldb代码的详尽注释,这里先列出自己在阅读前后的主要参考。0 官方文档http://leveldb.googlecode.com/svn/trunk/源代码,主要使用了1.7.0版本https://leveldb.googlecode.com/files/leveldb-1.7.0.tar.gzhttp://leveldb.googlecode.com/svn/trunk/doc/index.html官方使用手册,比较详细http://leveldb.googlecode.com/ 阅读全文
posted @ 2014-02-22 17:30 刀锋诚心 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 关于大端小端名词的由来,有一个有趣的故事,来自于Jonathan Swift的《格利佛游记》:Lilliput和Blefuscu这两个强国在过去的36个月中一直在苦战。战争的原因:大家都知道,吃鸡蛋的时候,原始的方法是打破鸡蛋较大的一端,可以那时的皇帝的祖父由于小时侯吃鸡蛋,按这种方法把手指弄破了,因此他的父亲,就下令,命令所有的子民吃鸡蛋的时候,必须先打破鸡蛋较小的一端,违令者重罚。然后老百姓对此法令极为反感,期间发生了多次叛乱,其中一个皇帝因此送命,另一个丢了王位,产生叛乱的原因就是另一个国家Blefuscu的国王大臣煽动起来的,叛乱平息后,就逃到这个帝国避难。据估计,先后几次有11000 阅读全文
posted @ 2014-02-22 16:49 刀锋诚心 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 一、信号的基本概念为了理解信号,举例说明下:1.用户输入命令,在Shell下启动一个前台进程。2.用户按下Ctrl-c,这个键盘输入产生一个硬中断。3.如果CPU当前正在执行这个进程的代码,则该进程的用户控件代码暂停执行,cpu从用户态切换到内核处理硬件中断。4.终端驱动程序将Ctrl-c解释成一个SIGINT信号,记在该进程的PCB中(也可以说发送一个SIGINT信号给该进程)。5.当某个时刻要从内核返回到该进程的用户空间代码继续执行之前,首先处理PCB中记录的信号,发现有一个SIGINT信号待处理,而这个信号的默认处理动作的终止进程,所以直接终止而不再返回它的用户空间代码执行。注意,Ctr 阅读全文
posted @ 2014-02-22 10:56 刀锋诚心 阅读(346) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 11 下一页