OpenNaive - 博客园

2013年9月10日

apache配置虚拟主机

摘要：买了一个域名，但是只有一个小组的公用ip，这个ip已经被用于小组的网站。如果我简单将域名映射到这个ip，那么访问的将是小组的网站，要访问自己的博客，需使用域名/目录这种url，很不方便。针对一个ip对应不同域名的问题，可以通过配置apache虚拟主机解决。apache的主要配置文件是/etc/apache2/httpd.conf、/etc/apache2/sites-available/default等，default文件是一个虚拟主机的例子，这次不需要修改这些文件。创建一个文件new_site，输入内容：VirtualHost *:80ServerName www.fumin.meDocum 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(178) 评论(0) 推荐(0)

模拟iDedup算法

摘要：在destor原型之上实现了类iDedup算法（介绍），其核心思想是只有当重复数据块在物理上连续才去重，可以通过一个threshold来设置序列的最小长度。因为底层存储并不是块设备，而是DDFS的container存储，不能判断数据块的DBN是否连续，所以我改为判断数据块所属container是否相邻。修改后的算法和iDedup算法的另一大区别是没有重复树，重复树用于记录存储系统中重复的数据块，在多个匹配中寻找最长的一个。考虑到备份系统的负载特点，我觉得这种需求是非常少见的，所以只查找最新备份的序列。修改后算法的流程图如下：算法的分支有些多，先画流程图再写代码可以少调很多bug。这幅图有一个小阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(383) 评论(0) 推荐(0)

伯克利的云计算报告（下）

摘要： 7.云计算的10大障碍云计算被公众接受有三大技术障碍；被接受后，云计算的增长又面临五大技术障碍；最后两个障碍是政策和商业障碍。云计算提供商在长期探索过程中会逐渐克服这些障碍。7.1服务的可用性用户最大的担心是云计算是否有足够的可用性，2008年Amazon EC2、GAE和Gmail都出现过服务中断的事故，持续数小时。只使用一家公司的云计算服务，会遇到单点故障的问题。即使这家公司非常大，有多个不同地理位置的数据中心，它们使用的仍然是同一套软件设施，甚至这家公司倒闭了怎么办。一些大企业会因为担忧这个问题而不愿意使用云计算。对于这个问题，唯一可行的解决办法是使用多家云计算提供商。另一个可用性问题是阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(247) 评论(0) 推荐(0)

伯克利的云计算报告（中）

摘要： 4.云计算的机遇建造和运维超大规模的商用数据中心是云计算最关键的助推器，同时新技术趋势和新商业模型也起到了很重要的作用。云计算一旦“起飞”，一些过去看来不现实的新应用和使用模型找到了出路。新技术和新的商业模式推动了云计算的发展。伴随Web2.0出现的，是从“high-touch, high-margin, high-commitment”的提供服务到“low-touch, low-margin, low-commitment”的自助服务的转变。比如，在Web1.0时代，接受陌生人的信用卡支付需要一份合约。这种合约适合大型商业关系，不适合个人用户和小型商业活动。PayPal出现后，任何个人接受信阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(391) 评论(0) 推荐(0)

伯克利的云计算报告（上）

摘要：云计算并不是个新想法，但是谁也说不清楚什么是云计算。因此伯克利的一帮家伙花了6个月的时间，对云计算进行了思考，最终形成了"Above the Clouds: A Berkeley View of Cloud Computing"这篇文章。这篇文章的目的是明确云计算的术语，用简单的公式量化比较云计算和传统计算，指出云计算最突出的技术和非技术障碍，以及对应的机遇。归纳一下，文章分为下面八点：1.什么是云计算云计算应该既包括网络上的应用服务，也包括数据中心支撑应用服务的系统软件和硬件。应用服务很早就被称为SaaS，而我们现在所说的云指的是数据中心的系统软件和硬件。当云通过pay- 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(519) 评论(0) 推荐(0)

如何产生数据集

摘要：原文：Generating Realistic Datasets for Deduplication Analysis.本文的作者首先在FAST12做了poster，然后全文发表在ATC12。本文针对目前数据去重领域缺少公认数据集的情况，提出了一种仿真真实数据集的方法，并开源了代码。传统的存储研究使用的trace都是无真实数据的，比如disksim接受的trace只有IO本身的特点，而数据去重依赖真实的数据，因此研究者通常使用自己的私有数据集，这使得无法公平比较各种数据去重方法。这个主题的意义还是很大的。1.框架想象一下真实的环境，我们的系统总是从一个起点开始（安装操作系统），不断发生演变，本阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(785) 评论(0) 推荐(0)

64位环境编译DiskSim 4.0

摘要： DiskSim没有64位版本，即使侥幸编译成功，运行时也会出现段错误。因此需要对源码进行一些修改，才能在64位环境使用，下文总结了在Ubuntu 64bit上编译DiskSim的全过程。1.安装bison和flexDiskSim需要bison和flex，如下：apt-get install bison flex2.math库的依赖问题在链接libmems_internals.a时，提示mems_hong_seek.c中的sqrt、acos等引用未定义，这个错误的原因是未链接math库。检查memsmodel/Makefile，发现：mems_seektest: mems_seektest.o 阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(1696) 评论(0) 推荐(1)

确保数据去重存储系统的读性能

摘要：原文：Assuring Demanded Read Performance of Data DeduplicationStorage with Backup Datasets.这篇文章发表在MASCOTS 2012，它的作者2011年在HPCC发表了一篇CFL，提出CFL衡量去重系统的碎片程度，这篇文章可以看成是续集，基于CFL提出了一种碎片的解决方案。因为和我目前的研究点重叠，所以看了一遍。去重系统的读性能很重要，不仅仅是因为恢复操作，更多的情况是需要归档。1.新的CFL在2011年的基础上，作者修正了CFL的定义。旧版的CFL忽略了内部碎片的影响，这在我前面的博文《重复数据删除系统的碎片研阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(513) 评论(0) 推荐(0)

减少在线去重造成的数据碎片

摘要：原文：Reducing Impact of Data Fragmentation Caused by In-line Deduplication。这篇文章发表在SYSTOR’12上，主题也是数据去重的碎片问题。不知道是我的英文问题，还是他写作问题，论文读起来很不顺畅。文章发现了一个重要的矛盾：用户喜欢恢复最近的版本，但是最近的版本碎片最严重，恢复最慢。因此使用重写+垃圾回收的方式解决这个问题。事实上这个矛盾也是我所做工作的出发点，重复了啊，伤不起！1.CBR算法文章的idea并不复杂，但是作者绕来绕去，弄出一大堆名词，搞得很难看懂。文章没有考虑惯用的container存储，而是假设直接按块存储阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(361) 评论(0) 推荐(0)

使用GNU Autotools制作Makefile

摘要：最近用了一些开源软件，它们都有统一的安装方法，非常方便：./configuremakemake install于是我也鸟枪换炮，给自己的源码用上了automake和autoconf。下面这张流程图显示了制作Makefile的全过程：1.autoconfautoconf工具的作用是检查工程依赖的库文件和头文件，同时也是automake的基础。首先用autoscan工具扫描源码，它会产生一个configure.scan模板，在此基础上我们进行修改得到configure.ca（推荐）或者configure.in（图中是这个），这个文件是configure的关键，里面记录了工程依赖的头文件和库文件。下阅读全文

posted @ 2013-09-10 16:22 OpenNaive 阅读(487) 评论(0) 推荐(0)