摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 这篇博文主要的内容不是分析说明kudu的性能指标情况,而是分析为什么kudu的scan性能会这么龊!当初对外宣传可是加了各种 逆天黑科技的呀:列独立存储、bloom filter、压缩、原地修改、b+tree、mvcc ... ... 这里先贴个k 阅读全文
posted @ 2018-11-21 16:50
tianshidan1998
阅读(584)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 在之前的文章中简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broadcast hash join 、shuffle hash join以及 sort merge join等,对每一种算法的核心应用场景也做了相关介绍,这里再重点说明 阅读全文
posted @ 2018-11-21 15:20
tianshidan1998
阅读(359)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 本文具体讨论了Join基础算法的一种优化方案 – Runtime Filter,在本文最后还引申地聊了聊谓词 下推技术。同时,在本文文章开头,笔者引出了两个问题,SQL执行引擎如何知晓参与Join的两波数据集大小?衡量两波数据集 大小的是物理大小还 阅读全文
posted @ 2018-11-21 15:10
tianshidan1998
阅读(198)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式 阅读全文
posted @ 2018-11-21 14:00
tianshidan1998
阅读(186)
评论(0)
推荐(0)
摘要:
作者:魏辛逸(如需转载,请取得作者同意授权。) 欢迎访问网易云社区,了解更多网易技术产品运营经验。 大数据的概念如今对于很多人来说并不陌生,成功的数据分析,不但可以反映企业的经营状况,更可以帮助企业优化经营方式。但数据分析类产品使用起来会花费一定学习成本,面向的客户群体也不像to c用户那么广,所以 阅读全文
posted @ 2018-11-21 13:20
tianshidan1998
阅读(187)
评论(0)
推荐(0)
摘要:
作者:吴彬彬 欢迎访问网易云社区,了解更多网易技术产品运营经验。 我们在生活中,会经常听说两种推理模式,一种是归纳 一种是演绎,这两种思维模式能够帮助数据分析师完成原始的业务逻辑积累,在此基础上快速定位业务问题,提升分析效率,但是对于刚入门的数据分析师,在项目经验不足的前提下,如何快速完成项目的分析 阅读全文
posted @ 2018-11-21 12:50
tianshidan1998
阅读(310)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 作者:刘阳(如需转载,请取得作者同意授权。) 地图所有人都很熟悉,但估计许多人都不知道我们平时看到的地图中是存在许多门道的,今天我就来一一道来。 先来看看我们平时最常见的世界地图是长这样的。 我们很容易联想到这样一个图形是无法平整的贴在一个球体表面 阅读全文
posted @ 2018-11-21 12:40
tianshidan1998
阅读(636)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 背景 Cloudera在2016年发布了新型的分布式存储系统——kudu,kudu目前也是apache下面的开源项目。Hadoop生态圈中的技术繁多,HDFS作为底层数据存储的地位一直很牢固。而HBase作为Google BigTable的开源产品 阅读全文
posted @ 2018-11-21 12:10
tianshidan1998
阅读(209)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 作者:王文开(如需转载,请取得作者同意授权。) 要说整车厂的核心业务是什么,说白了就是两个:一个是造车,一个是卖车;我今天想来聊一聊卖车,也就是整车厂的销售业务。 目前中国的汽车销售模式都是通过经销商的(暂时不考虑那些垂直的汽车电商,不是本文的重点 阅读全文
posted @ 2018-11-21 11:31
tianshidan1998
阅读(350)
评论(0)
推荐(0)
摘要:
作者:周思华 欢迎访问网易云社区,了解更多网易技术产品运营经验。 本文尝试描述Beam模型和Stream & Table理论间的关系(前者描述于数据流模型论文、the-world-beyond-batch-streaming101和the-world-beyond-batch-streaming-1 阅读全文
posted @ 2018-11-21 11:20
tianshidan1998
阅读(170)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 作者:汪谦 (如需转载,请取得作者同意授权。) 本文将介绍如何通过有数直观分析销售代表在各类目商品的销售贡献。 先上效果图 通过该图表,我们可以快速了解销售代表的收入贡献,比如当我们选中“薛婷”时,蓝色的柱子表示“薛婷”的销售额,背景的灰色柱子表示 阅读全文
posted @ 2018-11-21 11:01
tianshidan1998
阅读(164)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 Dolphin 是猛犸平台里的一个机器学习功能模块,提供给数据科学家进行机器学习的算法开发、模型训练和服务发布,提供分布式全功能深度学习框架,易学易用,高效灵活,支持 Tensorflow、MXNet、Caffe、Spark 等多种机器或深度学习框 阅读全文
posted @ 2018-11-21 10:50
tianshidan1998
阅读(253)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简 阅读全文
posted @ 2018-11-21 10:41
tianshidan1998
阅读(215)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 前言 最近几个月花了比较多精力在项目的测试环境Docker迁移上,从最初的docker“门外汉”到现在组里的同学(大部分测试及少数的开发)都可以熟练地使用docker环境开展测试工作,中间也积累了一些经验和踩过不少坑,借此2017复盘的机会,总结一 阅读全文
posted @ 2018-11-21 10:30
tianshidan1998
阅读(200)
评论(0)
推荐(0)
摘要:
欢迎访问网易云社区,了解更多网易技术产品运营经验。 作者:汪谦 如需转载,请取得作者同意授权 刚接触网易有数的用户,可能会认为有数只是一款数据可视化工具,但其实有数不单单能可视化数据,还能对数据进行计算分析,实现复杂的数据分析需求。 本文要介绍的就是有数提供的众多数据分析功能之一—— 跨视图粒度计算 阅读全文
posted @ 2018-11-21 10:20
tianshidan1998
阅读(320)
评论(0)
推荐(0)
摘要:
此文已由作者张威授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验。 原文地址:The 4 Layers of Single Page Applications You Need to Know原文作者:Daniel Dughila译文出自:掘金翻译计划本文永久链接:https: 阅读全文
posted @ 2018-11-21 10:11
tianshidan1998
阅读(255)
评论(0)
推荐(0)