05 2019 档案
摘要:最近学习了hashtable的一点知识,发现可以用来解决大数据的一些问题。我们这里讲的大数据分析事实上并不是分布式和数据挖掘这些高深的概念,而是针对从从一个大文件或者一堆数据(内存放不下)中找出具有某种特点的数,这也是近年来各大公司经常考的问题。 面试题1:给一个超过100G大小的log file,
阅读全文
摘要:作为一名热爱数据分析、通过努力拿到心仪offer的学生,是许许多多通过努力实现目标的学生中的普通一员。一路走来,我把自己的经历按照时间线写下来,中间穿插我的经验,在记录自己工作的同时,希望能给想要进入数据分析师岗位的学弟学妹们一点点的小收获。 一、本科4年,初识数学建模,爱上统计 从小就特别喜欢数学
阅读全文
摘要:server配置 server.address指定server绑定的地址 server.compression.enabled是否开启压缩,默认为false. server.compression.excluded-user-agents指定不压缩的user-agent,多个以逗号分隔,默认值为:t
阅读全文
摘要:大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。科多大数据希望能为你开始学习大数据的征程提供帮助,以及在大数据产业领域找到工作指明道路。 一、大数据技术基础 1、linux操作基础 · linux系统简介与安装 · li
阅读全文
摘要:501、MapReduce计算框架中的输入和输出的基本数据结构是键-值对。 502、Hadoop神奇的一部分在于sort和shuffle过程。 503、Hive驱动计算的“语言”是一XML形式编码的。 504、Hive通过和Jobtracker通信来初始化MapReduce任务(Job)。 505、
阅读全文
摘要:要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。 二,大数据里面的角色 角色一:大数据工程 大数据工程需要解决数据的定义、收
阅读全文
摘要:Apache Spark 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点
阅读全文
摘要:欢迎关注作者:大数据教程,AI教程、学习资源、论文解读,你想看的都在这里!最近不少同学跃跃欲试,想投入 AI 的怀抱,但苦于不知如何下手。其中,人工智能的核心就是机器学习(Machine Learning),它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 我们今天就来分享一篇来自 E
阅读全文
摘要:想要都进入大数据行业的第一步,是先搞清楚大数据究竟有哪些就业方向。 大数据就业岗位 随着大数据技术在企业界如火如荼的实践,企业对组建大数据团队的迫切程度也也来越高,对与大数据相关高端人才的需求也越来越紧迫,但企业对大数据团队的组建和角色分配方面缺一直有不小的困惑,到底大数据团队里应该拥有哪些几类角色
阅读全文
摘要:企业在推行大数据项目时往往把项目规模和范围做得很大,但是事实却是,很多大数据项目通常都会失败。2016年,Gartner估算约60%的大数据项目都会失败。一年后,Gartner分析师Nick Heudecker表示,这个数据“过于保守”,大数据项目失败率应接近85%。直至现在他也是这样认为的。 并不
阅读全文
摘要:导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机
阅读全文
摘要:1 Redis 工作模型 redis实际上是个单线程工作模型,其拥有较多的数据结构,并支持丰富的数据操作,redis目前是原生支持cluster模式。如果需要缓存能够支持更复杂的结构和操作,基于以上原因,选择线上使用Redis会是不错的选择。 1.1 Redis 高效的原因: Redis高效的原因:
阅读全文
摘要:前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识。他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不跟随时代进步,就会落后于时代。 我其实已经听过很多人跟我说过类似的话。只不过不同人嘴里提到的词汇各有
阅读全文
摘要:很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:410391744,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。
阅读全文
摘要:很多情况大数据集群需要获取业务数据,用于分析。通常有两种方式: 业务直接或间接写入的方式 业务的关系型数据库同步到大数据集群的方式 第一种可以是在业务中编写代码,将觉得需要发送的数据发送到消息队列,最终落地到大数据集群。 第二种则是通过数据同步的方式,将关系型数据同步到大数据集群,可以是存储在 hd
阅读全文
摘要:0.0 前言 本文主要基于最新的Spark 2.1.0版本。阅读本文可以对Spark 2.1.0的学习过程,运行流程,关键组件,原理有所了解。文章有点长,你也可以直接阅读感兴趣的部分,但是还是建议全面了解。 1.0 简介 Spark是Apache软件基金会下的分布式系统开源项目。在官网中这样概况这个
阅读全文

浙公网安备 33010602011771号