ggjucheng - 博客园

内核模块管理(转)

摘要：内核与内核模块谈完了整个启动的流程，您应该会知道，在整个启动的过程当中，是否能够成功的驱动我们主机的硬件配备，是内核 (kernel) 的工作！而内核一般都是压缩档，因此在使用内核之前，就得要将他解压缩后，才能加载主内存当中。另外，为了应付日新月异的硬件，目前的内核都是具有『可读取模块化驱动程序』的功能，亦即是所谓的『 modules (模块化)』的功能啦！所谓的模块化可以将他想成是一个『外挂程序』，该外挂程序可能由硬件开发厂商提供，也有可能我们的内核本来就支持～不过，较新的硬件，通常都需要硬件开发商提供驱动程序模块啦！那么内核与内核模块放在哪？内核： /boot/vmlinuz 或阅读全文

posted @ 2012-10-13 22:02 ggjucheng 阅读(2157) 评论(0) 推荐(0)

Centos启动流程(转)

摘要：启动流程概览在硬件驱动成功后，Kernel 会主动呼叫 init 程序，而 init 会取得 run-level 资讯；init 运行 /etc/rc.d/rc.sysinit 文件来准备软件运行的作业环境 (如网络、时区等)；init 运行 run-level 的各个服务之启动 (script 方式)；init 运行 /etc/rc.d/rc.local 文件；init 运行终端机模拟程序 mingetty 来启动 login 程序，最后就等待使用者登陆啦；init,/etc/inittab,runlevel介绍在核心加载完毕、进行完硬件侦测与驱动程序加载后，此时你的主机硬件应该已经准备就绪阅读全文

posted @ 2012-10-13 16:15 ggjucheng 阅读(6128) 评论(0) 推荐(0)

Linux 内核启动流程(转)

摘要：启动流程一览既然启动是很严肃的一件事，那我们就来了解一下整个启动的过程吧！好让大家比较容易发现启动过程里面可能会发生问题的地方，以及出现问题后的解决之道！不过，由於启动的过程中，那个启动管理程序 (Boot Loader) 使用的软件可能不一样，例如目前各大 Linux distributions 的主流为 grub，但早期 Linux 默认是使用 LILO 。但无论如何，我们总是得要了解整个 boot loader 的工作情况，才能了解为何进行多重启动的配置时，老是听人家讲要先安装 Windows 再安装 Linux 的原因～假设以个人计算机架设的 Linux 主机为例，当你按下阅读全文

posted @ 2012-10-13 15:36 ggjucheng 阅读(3336) 评论(0) 推荐(0)

布隆过滤器应用

摘要：背景在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新元素时，将它和集合中的元素直接比较即可。一般来讲，计算机中的集合是用哈希表（hash table）来存储的。它的好处是快速准确，缺点是费存储空间。当集合比较小时，这个问题不显著，但是当集合巨大时，哈希表存储效率低的问题就显现出来了。比如说，一个象 Yahoo,Hotmail 和阅读全文

posted @ 2012-10-09 22:25 ggjucheng 阅读(2299) 评论(0) 推荐(0)

Paxos在大型系统中常见的应用场景(转)

摘要：在分布式算法领域，有个非常重要的算法叫Paxos, 它的重要性有多高呢，Google的Chubby [1]中提到all working protocols for asynchronous consensus we have so far encountered have Paxos at their core.关于Paxos算法的详述在维基百科中有更多介绍，中文版介绍的是choose value的规则[2]，英文版介绍的是Paxos 3 phase commit的流程[3]，中文版不是从英文版翻译而是独立写的，所以非常具有互补性。Paxos算法是由Leslie Lamport提出的，他在Pa 阅读全文

posted @ 2012-10-09 21:57 ggjucheng 阅读(993) 评论(0) 推荐(0)

淘宝MapReduce作业特性分析(转)

摘要：大部分是小作业,大多数运行几分钟或十几分钟.绝大多数在半小时之内。占用的slot数一般为几十到几百。集群同时在运行的作业数比较多。繁忙的时候同时运行的作业有六百多个, 每天完成的作业数万个。有些作业被分析多个要求顺序执行的小作业。各作业的依赖性比较大, 后面一组作业的开始时间受限前一组作业的结束时间Map slots与Reduce slots使用率不高，特别是Reduce Slots。作业周期性比较明显，每个晚上1点到5点左右，集群处于相对忙的状态，白天很空闲。作业时效性要求较强。大部分作业要求在上午8点前执行结束，特别是涉及前端产品，如量子统计、数据魔方等业务的作业。如果上班前作业没有执行完阅读全文

posted @ 2012-10-09 21:43 ggjucheng 阅读(761) 评论(0) 推荐(0)

淘宝Hadoop集群的概况(转)

摘要：国内外使用Hadoop的公司比较多，全球最大的Hadoop集群在雅虎，有大约25，000个节点，主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等，其中淘宝的Hadoop集群属于较大的（如果不是最大）。淘宝Hadoop集群现在超过1700个节点，服务于用于整个阿里巴巴集团各部门，数据来源于各部门产品的线上数据库（Oracle, MySQL）备份，系统日志以及爬虫数据，截止2011年9月，数量总量已经超过17个PB，每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万（有时会超过6万），其中大部分任务是每天定期执行的统计任务阅读全文

posted @ 2012-10-09 21:41 ggjucheng 阅读(5952) 评论(0) 推荐(0)

悉数那些“巨型”数据仓库(转)

摘要：你能想象一个企业的数据仓库究竟有多大吗?虽然下面的数据来自于两年前，但是还是挺震撼的。相信目前，这些巨型的数据仓库“怪物”的体积又增大了几倍。行业分析师Curt Monash曾经见过许多非常大型的数据仓库，并进行了总结，其中用到的数据管理软件工具更是多种多样，有传统的Teradata数据仓库，也有Greenplum这样的MPP数据库，还有许多开源的技术，比如Hadoop/Hive等。 1、ebay：公司有超过6.5 PB的数据库运行在Greenplum上，另外2.5 PB的企业数据仓库运行在Teradata上。 2、Facebook：脸书公司刚刚完成IPO，它们是著名的互联网数据巨鳄，也... 阅读全文

posted @ 2012-10-09 21:36 ggjucheng 阅读(1580) 评论(0) 推荐(0)

大数据量，海量数据处理方法总结(转)

摘要：大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloom filter适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数阅读全文

posted @ 2012-10-09 21:34 ggjucheng 阅读(4394) 评论(0) 推荐(1)

”十六“进制查看器

摘要： hexdumphexdump命令一般用来查看”二进制“文件的十六进制编码，但实际上它的用途不止如此，手册页上的说法是“ascii, decimal, hexadecimal, octal dump“，而且它能查看任何文件，而不只限于二进制文件了。规范的十六进制和ASCII码显示(Canonical hex+ASCII display)root@new55 ~]# echo /etc/passwd | hexdump -C00000000 2f 65 74 63 2f 70 61 73 73 77 64 0a |/etc/passwd.|0000000c单字节八进制... 阅读全文

posted @ 2012-10-07 23:26 ggjucheng 阅读(5832) 评论(0) 推荐(1)

简单，可复制

公告