上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 23 下一页
摘要: 实时计算最好的时代 在过去的十年里,面向数据时代的实时计算技术接踵而至。从我们最初认识的 Storm,再到 Spark 的异军突起,迅速占领了整个实时计算领域。直到 2019 年 1 月底,阿里巴巴内部版本 Flink 正式开源!一石激起千层浪,Flink 开源的消息立刻刷爆朋友圈,整个大数据计算领 阅读全文
posted @ 2020-05-11 19:43 Xiaohu_BigData 阅读(890) 评论(1) 推荐(0)
摘要: 想进大厂,必须掌握 Flink 技术!!! 随着大数据时代的发展、海量数据的实时处理和多样业务的数据计算需求激增,传统的批处理方式和早期的流式处理框架也有自身的局限性,难以在延迟性、吞吐量、容错能力,以及使用便捷性等方面满足业务日益苛刻的要求。在这种形势下,Flink 以其独特的天然流式计算特性和更 阅读全文
posted @ 2020-05-11 19:24 Xiaohu_BigData 阅读(508) 评论(0) 推荐(0)
摘要: 一、python是什么 Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python的设计具有很强的可读性相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。 Python是一种解释型语言,这意味着开发过程中没有了编译这个环节。类似 阅读全文
posted @ 2020-04-12 00:20 Xiaohu_BigData 阅读(235) 评论(0) 推荐(1)
摘要: Spark 广播变量(broadcast)更新方法更新方法spark 广播变量可以通过unpersist方法删除,然后重新广播 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(",") (arr(0), ar 阅读全文
posted @ 2020-04-10 11:12 Xiaohu_BigData 阅读(1756) 评论(0) 推荐(0)
摘要: 一、机器学习的概念 1、什么是学习? --从人的学习说起 --学习理论;从实践中总结 --在理论上推导;在实践中检验 --通过各种手段获取知识或技能的过程 2、机器怎么学习? --处理某个特定的任务,以大量的“经验”为基础 --对任务完成的好坏,给予一定的评判标准 --通过分析经验数据,任务完成的更 阅读全文
posted @ 2020-04-07 11:28 Xiaohu_BigData 阅读(1646) 评论(0) 推荐(0)
摘要: 一、运行时的组件和基本原理 1、作业管理器 (1)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager所控制执行。 (2)JobManager会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(Logical dataflow 阅读全文
posted @ 2020-04-02 21:36 Xiaohu_BigData 阅读(712) 评论(0) 推荐(1)
摘要: 一、先来拜访几位大佬 二、线性代数 1、什么是矩阵? 矩阵(Matrix)是一个按照长方形阵列排列的复数或实数集合。 矩阵最早来自于方程组的系数及常数所构成的方阵,最初是用来解决线性方程求解的工具。 矩阵是高等代数中常见工具,也常见于统计分析等应用数学学科中,矩阵在物理学和计算机科学中都有应用。 矩 阅读全文
posted @ 2020-04-01 20:16 Xiaohu_BigData 阅读(498) 评论(0) 推荐(0)
摘要: 推荐系统的目的 1、信息过载 2、推荐系统 推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”;面向没有明确需求的人。 解决如何从大量信息中找到自己感兴趣的信息。 剞劂如何让自己生产的信息中脱颖而出,收到大众的喜爱。 3、让用户更快更好的 阅读全文
posted @ 2020-03-31 17:11 Xiaohu_BigData 阅读(434) 评论(0) 推荐(0)
摘要: 学了有一段时间的大数据了,学习新的组件,大部分安装可以分为三步:上传解压,配置文件,启动。 分享一下我的kafka安装包: 链接:https://pan.baidu.com/s/1fbydwZwcYyi2saYozit0nA 提取码:w4oc 1、上传解压 2、进入到 /usr/local/soft 阅读全文
posted @ 2020-03-13 13:46 Xiaohu_BigData 阅读(1403) 评论(0) 推荐(0)
摘要: 一、简介 1.1 概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级 阅读全文
posted @ 2020-03-13 13:16 Xiaohu_BigData 阅读(310) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 23 下一页