2014年3月19日
摘要: 常用性能优化方案 创建索引 限定返回结果数 只查询使用到的字段 采用capped collection 采用Server Side Code Execution 使用Hint,强制使用索引 Hint 虽然MongoDB查询优化器一般工作的很不错,但是也可以使用hint()来强迫MongoDB使用一个 阅读全文
posted @ 2014-03-19 16:16 duanxz 阅读(2446) 评论(0) 推荐(1)
摘要: 提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间 阅读全文
posted @ 2014-03-19 15:25 duanxz 阅读(1255) 评论(0) 推荐(0)
摘要: 1.了解MongoDB的ObjectId MongoDB的文档固定是使用“_id”作为主键的,它可以是任何类型的,默认是个ObjectId对象(在Java中则表现为字符串),那么为什么MongoDB没有采用其他比较常规的做法(比如MySql的自增主键),而是采用了ObjectId的形式来实现?别着急 阅读全文
posted @ 2014-03-19 14:47 duanxz 阅读(6146) 评论(0) 推荐(2)
摘要: 摘要 本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机 阅读全文
posted @ 2014-03-19 14:37 duanxz 阅读(2202) 评论(0) 推荐(0)