随笔档案「2012年2月」 - madec

高效能计算

摘要：DUke大学的一个针对Hadoop的project，starfishhttp://www.cs.duke.edu/starfish/index.html想做通用的太难了，还是有针对性的现实一点，例如workload的profile，通用的又能做什么呢？在弹性资源分配的时候如何保证质量呢，是什么在指导资源的额分配？carolina state university的e-cloud.http://dance.csc.ncsu.edu/projects/cloud/index.html 阅读全文

posted @ 2012-02-29 11:46 madec 阅读(134) 评论(0) 推荐(0)

持续计算：与流计算实时计算

摘要：什么叫持续计算，是不是一直保持的计算场景就是持续计算。http://ishare.iask.sina.com.cn/f/22023950.html 阅读全文

posted @ 2012-02-28 19:30 madec 阅读(122) 评论(0) 推荐(0)

计算产业的未来

摘要：随着工业计算的改进，22nm的芯片已经走上生产线，接着是15nm...,当1nm之后，单个原子的导线会不会产生逻辑的变化。要知道纳米技术就是因为某些材料到几个原子的级别的时候，其物理特性会发生巨变。这也许就是量子计算要解决的问题，当几个量子的时候，其规律是怎样的，数据如何处理，存储，表示，编码，计算，传递等等。除了这个计算机技术的物理未来，就拿其集成使用如云计算来说，也存在持续计算的问题。能耗，场地，设备更新淘汰和循环利用、电池辐射等都面临严重的问题，值得去研究。随着PC，手机产业的发展和更新换代的加速，以前的产品如何处理，回收利用还是如何，世界上的原材料会不会像能源那样面临紧缺的问题？中科院阅读全文

posted @ 2012-02-28 19:26 madec 阅读(126) 评论(0) 推荐(0)

IBM Blue Gene Solution:CNK

摘要：这个跟linux又有什么区别，它是裁剪linux还是重新开发？其实也是对Linux做裁剪和修改，例如关闭抢占，远程登录等功能，而且修改添加Big Memory等提高TLB和cache效率，compute node kernel其实只是一个新概念而已。http://www.unixer.de/ross2011/slides/ross2011-yoshii.pdfhttp://sc06.supercomputing.org/schedule/pdf/pap178.pdf 阅读全文

posted @ 2012-02-27 12:57 madec 阅读(148) 评论(0) 推荐(0)

HPC计算向何处去

摘要：除了原先的计算硬件架构仅仅增加规模已不再适应，开始出现异构如GPU、FPGA等，而且应用也开始发生了大大的变化，这个领域到底要向何处去呢？Top500就那么有意义么？应用500和效益500，绿色500都是可以的，但是不如计算那么成熟，当然必然是以后的发展方向。如果果断转向，也许发展还会很好；如果不，那么就后继乏力了以前的支撑也许没有那么有力了。在海量数据中，数据会越来越多，普通的集群很快会存在操作，扩展和能耗的问题；而且对于某些实时和复杂操作，时间才是关键，所以HPC应该也有前途，但是不仅仅是追求linpack还要是应用和处理。现在的厂商都增加了一层运维技术员，那么将来互联网创业的人也可以不用阅读全文

posted @ 2012-02-25 21:49 madec 阅读(203) 评论(0) 推荐(0)

scheduling

摘要：这里的调度仅仅是调度，而不包括matching、mapping和placement，而仅仅是这个从A集合到B集合映射过后，a节点上的任务的统筹安排。就是这个工作也需要很多问题考虑，是操作系统对进程的调度是OS scheduling还是process scheduling？因为VM scheduling与vcpu schduling。更有甚者，有些人称进程调度为cpu资源调度，各种说法和词语其实掩盖了多少的概念不清晰。而基本概念的不清晰，也就意味着迷雾缠身，难以再深度研究。就拿最简单的OS 进程调度来说吧。我们就叫他进程调度，不要叫CPU调度（最好说是CPU资源分配），而说OS调度那是外行对OS 阅读全文

posted @ 2012-02-25 10:36 madec 阅读(329) 评论(0) 推荐(0)

concepts

摘要：学了这么多概念和名词，一直想对它们做一次梳理，看到底什么是什么。否则，这样一团浆糊，不知道自己会些什么，不会些什么，还需要怎样学习长进，也不知道遇到了问题该如何归类、明确和解答。computer到底是研究什么的，是研究机器制造呢，还是解决问题的”计算“的？也许，这是这个学科的两个方面。那么，这里面到底都有哪些问题呢？像OS中的调度问题，各种cache中的一致性问题，事务的原子性问题，最短路径最大流问题..这些问题中间存在什么样的关联和区别？Amadal定律，局部性定律，又有多少这样的经验法则？遗传、模拟退火又有多少种算法；汇编、C、C++、java、php等等又有多少中语言.....而这些概念阅读全文

posted @ 2012-02-25 10:12 madec 阅读(193) 评论(0) 推荐(0)

计算机系统设计仿真

摘要：提出一个模型，如何构建一个计算机划算，并做一个仿真，从而在实现真实物理机器之前做一个仿真，从而避免失败和错误。为什么觉得这个想法有难度没深度，千头万绪无从下手又比较让人厌烦而不起兴趣，因为这个想法比较初级，应该再深挖再聚焦。想想看，一个cache的仿真模拟器而已，或者disk的仿真模拟，或者指令集，还缺乏整个系统的仿真模拟，因为关注的问题太多了，太复杂了，就像cloudsim和simos一样。仿真简单的物理场景可以，仿真计算这么复杂的部件还是比较困难的。连游戏、城市建设都可以，何况一个计算机。了解的知识系统不够多，不够深入。游戏岂能跟真实的世界人生相比？Amdal定律也仅仅是关注性能而已，可靠阅读全文

posted @ 2012-02-23 09:09 madec 阅读(214) 评论(0) 推荐(0)

异构环境下的数据库

摘要：数据仓库里提出的异构又是另外一个概念了。http://www.tongji.edu.cn/~yangdy/database/paper2.htm 阅读全文

posted @ 2012-02-22 20:07 madec 阅读(142) 评论(0) 推荐(0)

异构平台对比（GPU FPGA DSP）

摘要：GPU在图像处理方面进行了专门的优化，个人认为可以作为协处理器，应用场景主要在于娱乐等对视觉效果要求较高的方面。dsp 的优势在于处理速度快，灵活性高，便于调试和系统升级。DSP专用性较强，数字处理方面比前两者要优势更多些。但控制能力较弱，不过这个弱点也在后续发展中慢慢的增强，比如增加外部设备控制部分等。在高速运算场景还是必备的芯片。但是它的主频到1.2G 已经很难上去的，能做的只是多核和协处理器。而fpga则时序控制精准，固定模块的设计最好采用fpga，比较稳定，但调试起来不是太灵活。fpga只适合做一些prototye，或者一些低速率的东西。嵌入式计算看好cpu+dsp的soc，通用计阅读全文

posted @ 2012-02-22 20:04 madec 阅读(2075) 评论(1) 推荐(0)

OpenCL

摘要：openCL可以提供比CUDA更细的控制粒度，而且它提供的是利用GPU做通用计算，相比CUDA的图形借口更加通用，而且可以支持其他硬件设备，如FPGA等。关于CUDA和OpenCL的关系，其实CUDA是一个架构，类似于CPU里的x86，而OpenCL是一个API，类似DirectX和OpenGL，CUDA架构最主要的包含两个方面：一个是ISA指令集架构；第二硬件计算引擎。对于编程人员他可以选择不同的方式来进行编程，他们可以选择OpenCL API编程也可以选择C for CUDA语言来编程。而就C for CUDA来说，编程人员在利用C for CUDA语言来编程的时候，无需考虑过多与自身编程阅读全文

posted @ 2012-02-22 19:55 madec 阅读(668) 评论(0) 推荐(0)

data Streaming Processing system

摘要：Dynamic Metadata Management for Scalable Stream Processing Systems该论文认为元数据的处理在SSPS中很重要，特别是元数据的依赖性导致的更新复杂，论文通过研究设计一种机制完成元数据的更新触发，从而保持一定的一致性。阅读全文

posted @ 2012-02-22 19:17 madec 阅读(150) 评论(0) 推荐(0)

异构计算

摘要：异构计算是采用不同指令集和体系结构的系统进行计算方式，常见的计算单元类别包括CPU、GPU等协处理器、DSP、ASIC、FPGA等。不同计算平台的各个层次上都存在异构现象，除硬件层的指令集、互联方式、内存层次之外，软件层中应用二进制接口、API、语言特性底层实现等的不同，对于上层应用和服务而言，也都是异构的从应用上，金钱成本和能耗成本，从体系结构上来说，AMD收购了ATI，AMD Fusion系列APU，。NVIDIA实际上是最早提出高举GPGPU概念的芯片厂商之一，但苦于没有自家CPU作为支撑，因此只能止步于GPGPU领域。Intel则先后提出了基于CPU的Many-Core计划和基于GPU 阅读全文

posted @ 2012-02-21 17:00 madec 阅读(468) 评论(0) 推荐(0)

MongoDB

摘要：MongoDB是针对文档的分布式数据库系统阅读全文

posted @ 2012-02-20 22:23 madec 阅读(269) 评论(0) 推荐(0)

cassandra vs Hbase

摘要：不要把他们混为一谈，各有各的好处。cassandra更适合实时和交互，而且简单，而建立在Hadoop基础上的Hbase更适合大批量的数据仓库和后台分析。cassandra虽然性能好的多，但是对于复杂的应用和更大规模的数据，它就不行了，例如对MR支持的就不如Hbase好。那么，是基于Hbase呢，还是cassandra。当然cassandra有他的好处，如果能把它的有点用到hbase上也好，Hbase上的还是有用的。当然cassandra的很多技术也值得学习，例如gossip（完全对等的p2p），是Master/Slave所不具有的，哪种好呢？还要看需求。http://article.yeeya 阅读全文

posted @ 2012-02-20 22:20 madec 阅读(494) 评论(0) 推荐(0)

NoSQL

摘要：云存储，bigdata，NoSQL，Key-Value，Bigtable，Hbase....等新名词不断铺面而来，刚开始接触这些新概念往往都把它们视为一体（看到Hbase我都会把bigtable，NoSQL等词联想起来），不能分清其中的区别。随着了解的不断深入，也逐渐有了一些体会。bigtable讲到数据是有3个index，row key,column key,time stamp。问题在想GSF写的时候SSTable到底是怎么组织的呢，同一个column family在一起（即使不同row），还是同一个row的在一个SSTalbe？看了那么多paper，连这个都没有搞清楚，是他们不写还是我没阅读全文

posted @ 2012-02-20 22:20 madec 阅读(320) 评论(0) 推荐(0)

YCSB Benchmark and Test

摘要：测试是起点、是终点、是导向。虽然测试处于开发的后面，但其实人应该先知道测试的，特别是改进型的，而不是原创型的。（即使原创，也应该有一个目标才对，否则创什么？）无论是做策略、理论还是做机制，都要证明给别人工作的有效性，而这种证明往往就是比较难的。通常掌握如何评价和测试，是从外面了解一个系统的快速步骤。想要了解一个系统，从功能和外在是一个更好的方式，比理解其中的内部细节要让人感兴趣并且容易多了。所以测试不可不讲，他是目标、动力、和指导。我们做云计算，到底做什么？又有什么可做的？别人都做了什么，做的如何。所以，要先从测试着手，不用问怎么测的，只需要知道测什么，能够测什么就可以了。然后，再看技术细节，阅读全文

posted @ 2012-02-20 22:19 madec 阅读(213) 评论(0) 推荐(0)

海量数据系统对比

摘要：时代发展，技术也在变，云计算使得以前只懂开发语言和设计页面的小程序员逐渐长为懂得企业运行特别是技术运行的大系统人才。了解系统不仅仅是为了吹嘘，而是通过了解系统的作用和不足，可以知道现在有什么问题，大家都是怎么解决的，有哪些解决不了或者不好。这叫把握现状。如果觉得着太多不好把握，但总比看什么小说要好玩的多吧。拿着看小说的心态心情来看待这些，毕竟这也是比较有意思的，能理解的。仅仅关注一些本质技术和概念已经不行，如果像走的新走的深，还是要深入下去，与各种应用挂钩，仅仅只懂核心的那一点是走不远的，以为那是核心其实那是山脚，要想走自己的山头还是要从山脚开始，站在别人的山头上又有什么意思？云计算公司和互联阅读全文

posted @ 2012-02-20 22:18 madec 阅读(433) 评论(0) 推荐(0)

测试是研究的开始

摘要：最近一段时间一直在看论文，可是还是找不到感觉也找不到问题，曾经和搭建过研究的系统，可没有什么东西在上面跑，又不想跑无用的东西（想跑有用的东西以证明价值），但是哪里找到有用的呢，真正online的人家也不敢在我们的半成品上跑。于是，发现自己做什么都想追求点实际效益是有点过于完美了。测试，就相当于物理学家们的实验，怎么能因为没有直接的效益就否定它的价值而不愿意去做呢，不做又怎么能深入研究、发现问题，找出创新呢。最近关注海量数据处理方面的，最流行的平台应该是Hadoop以及一系列NoSQL数据库了，何不把他们搭建起来，做一番测试呢，有没有问题跑了再说。真的去做了才发现测试是挺麻烦的一件事情，关涉的内阅读全文

posted @ 2012-02-20 22:15 madec 阅读(134) 评论(0) 推荐(0)

工作流系统

摘要：科学工作流相比较社会商业流还是简单一些的，现在好多软件都在提供企业的管理流系统，比较不错。松散耦合有好处，但是也有性能不好的，无用操作多的坏处。kepler系统等跟storm又有什么区别，可重复性，著作权问题，难道商业流不需要这些？http://hi.baidu.com/qiubaiwei/blog/item/5c10b7d29d85f5d7a8ec9a19.html科学计算流和商业业务流的区别。http://blog.csdn.net/caotiancool/article/details/2055877 阅读全文

posted @ 2012-02-20 10:52 madec 阅读(194) 评论(0) 推荐(0)

Hypervisor 还是container

摘要：你喜欢用哪个，哪个更好？目前的观点是VMM的资源消耗太大，还是需要container更划算一些。根据OpenVZ网站的说法，使用OpenVZ与使用独立的服务器相比，性能只会有1-3%的损失。OpenVZ是SWsoft, Inc.公司开发的专有软件Virtuozzo的基础。OpenVZ的授权为GPLv2。OpenVZ由两部分组成，一个经修改过的操作系统核心与及用户工具。openvz是否只适合做VPS，装在其上的软件或平台是不是需要特殊的适配，能否装MapRecude,Hadoop之类的东东？还是仅仅只能做一些web服务器？想要搭建一个IaaS和PaaS，是直接在OS上做Hadoop呢，还是想Am 阅读全文

posted @ 2012-02-20 10:49 madec 阅读(269) 评论(0) 推荐(0)

madec

02 2012 档案

导航

公告