代码改变世界

阅读排行榜

RDD(转):一种基于内存的集群计算的容错性抽象方法(二)

2013-01-29 11:40 by Polarisary, 664 阅读, 收藏,
摘要: 弹性分布式数据集:一种基于内存的集群计算的容(一):摘要,引言弹性分布式数据集:一种基于内存的集群计算的容(二):弹性分布式数据集(RDD)弹性分布式数据集:一种基于内存的集群计算的容(三):Spark API,应用程序示例2.弹性分布式数据集(RDD)本部分描述RDD和编程模型。首先讨论设计目标(2.1),然后定义RDD(2.2),接着讨论Spark的编程模型(2.3),并给出一个示例(2.4),最后将RDD与分布式共享内存进行比较(2.5)。2.1 目标和概述我们的目标是为基于工作集(working set)的应用(即多个并行操作重用中间结果的这类应用)提供抽象,同时保持MapReduce 阅读全文

RDD(转):一种基于内存的集群计算的容错性抽象方法(一)

2013-01-28 19:57 by Polarisary, 635 阅读, 收藏,
摘要: 弹性分布式数据集:一种基于内存的集群计算的容(一):摘要,引言弹性分布式数据集:一种基于内存的集群计算的容(二):弹性分布式数据集(RDD)弹性分布式数据集:一种基于内存的集群计算的容(三):Spark API,应用程序示例原文出处:http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf译文原处:http://bbs.sciencenet.cn/home.php?mod=space&uid=425672&do=blog&id=520947摘要:本文提出了弹性分布式数据集(RDD,Resilient 阅读全文

python爬虫

2014-04-14 21:05 by Polarisary, 598 阅读, 收藏,
摘要: 前些天,学习python多线程,写了个爬虫,可以爬取虎嗅上的一些文章。开始时是想爬完文章后,再搞个分类器将文章分类展示,工作较忙,又要学习新的知识,分类器以后再搞了,备忘。 1 # !/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 import Q... 阅读全文

我理解的RPC

2014-04-16 22:40 by Polarisary, 578 阅读, 收藏,
摘要: 这两天在学习公司一牛人写的RPC框架,一直都对RPC的概念很模糊,现在稍微清晰了些。rpc定义:RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如... 阅读全文

动态连通性问题

2013-01-30 18:08 by Polarisary, 576 阅读, 收藏,
摘要: 问题:构建一个N个数的整数列,判断两个数是否是连通的。通过记录父节点来构建树,从而最终形成一个森林。亮点:引入连通分量大小,连接两个分类时,将小的分类连到大的分量上,减小书的高度,这样使通过父节点找其根节点的复杂度降低,从而适用于大数据量的处理!思路:判断两个数字是否连通:通过数组id[]记录其父节点,根节点的父节点是其本上,若两个数字的根节点是同一个,就连通。否则,不连通。连通两个分量:将两个不连通的分量的根节点的其中一个的父指向另一个。为了使连接后的树的高度降低,需要将小树连到大树上。采用sz[]记录连通分量大小实现。连通后将大树根的分量置为两个分类之和。 1 public class W 阅读全文