Xiaohu_BigData

2020年5月11日

摘要：实时计算最好的时代在过去的十年里，面向数据时代的实时计算技术接踵而至。从我们最初认识的 Storm，再到 Spark 的异军突起，迅速占领了整个实时计算领域。直到 2019 年 1 月底，阿里巴巴内部版本 Flink 正式开源！一石激起千层浪，Flink 开源的消息立刻刷爆朋友圈，整个大数据计算领阅读全文

posted @ 2020-05-11 19:43 Xiaohu_BigData 阅读(902) 评论(1) 推荐(0)

Flink学习（一）行情介绍

摘要：想进大厂，必须掌握 Flink 技术！！！随着大数据时代的发展、海量数据的实时处理和多样业务的数据计算需求激增，传统的批处理方式和早期的流式处理框架也有自身的局限性，难以在延迟性、吞吐量、容错能力，以及使用便捷性等方面满足业务日益苛刻的要求。在这种形势下，Flink 以其独特的天然流式计算特性和更阅读全文

posted @ 2020-05-11 19:24 Xiaohu_BigData 阅读(513) 评论(0) 推荐(0)

2020年4月12日

Python基础

摘要：一、python是什么 Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python的设计具有很强的可读性相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。 Python是一种解释型语言,这意味着开发过程中没有了编译这个环节。类似阅读全文

posted @ 2020-04-12 00:20 Xiaohu_BigData 阅读(239) 评论(0) 推荐(1)

2020年4月10日

Spark 广播变量（broadcast）更新方法

摘要： Spark 广播变量（broadcast）更新方法更新方法spark 广播变量可以通过unpersist方法删除，然后重新广播 val map = sc.textFile("/test.txt").map(line => { val arr = line.split(",") (arr(0), ar 阅读全文

posted @ 2020-04-10 11:12 Xiaohu_BigData 阅读(1758) 评论(0) 推荐(0)

2020年4月7日

机器学习理论基础

摘要：一、机器学习的概念 1、什么是学习？ --从人的学习说起 --学习理论；从实践中总结 --在理论上推导；在实践中检验 --通过各种手段获取知识或技能的过程 2、机器怎么学习？ --处理某个特定的任务，以大量的“经验”为基础 --对任务完成的好坏，给予一定的评判标准 --通过分析经验数据，任务完成的更阅读全文

posted @ 2020-04-07 11:28 Xiaohu_BigData 阅读(1659) 评论(0) 推荐(0)

2020年4月2日

Flink运行时架构

摘要：一、运行时的组件和基本原理 1、作业管理器（1）控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的JobManager所控制执行。（2）JobManager会先接收到要执行的应用程序，这个应用程序会包括：作业图（JobGraph）、逻辑数据流图（Logical dataflow 阅读全文

posted @ 2020-04-02 21:36 Xiaohu_BigData 阅读(714) 评论(0) 推荐(1)

2020年4月1日

推荐系统（二）数学基础

摘要：一、先来拜访几位大佬二、线性代数 1、什么是矩阵？矩阵（Matrix）是一个按照长方形阵列排列的复数或实数集合。矩阵最早来自于方程组的系数及常数所构成的方阵，最初是用来解决线性方程求解的工具。矩阵是高等代数中常见工具，也常见于统计分析等应用数学学科中，矩阵在物理学和计算机科学中都有应用。矩阅读全文

posted @ 2020-04-01 20:16 Xiaohu_BigData 阅读(507) 评论(0) 推荐(0)

2020年3月31日

推荐系统（一）概述

摘要：推荐系统的目的 1、信息过载 2、推荐系统推荐系统是信息过载所采用的措施，面对海量的数据信息，从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”；面向没有明确需求的人。解决如何从大量信息中找到自己感兴趣的信息。剞劂如何让自己生产的信息中脱颖而出，收到大众的喜爱。 3、让用户更快更好的阅读全文

posted @ 2020-03-31 17:11 Xiaohu_BigData 阅读(442) 评论(0) 推荐(0)

2020年3月13日

KaFka 安装与基本使用

摘要：学了有一段时间的大数据了，学习新的组件，大部分安装可以分为三步：上传解压，配置文件，启动。分享一下我的kafka安装包：链接：https://pan.baidu.com/s/1fbydwZwcYyi2saYozit0nA 提取码：w4oc 1、上传解压 2、进入到 /usr/local/soft 阅读全文

posted @ 2020-03-13 13:46 Xiaohu_BigData 阅读(1406) 评论(0) 推荐(0)

kafka 认识kafka（一）

摘要：一、简介 1.1　概述 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级阅读全文

posted @ 2020-03-13 13:16 Xiaohu_BigData 阅读(316) 评论(0) 推荐(0)

公告