大码王 - 博客园

2020年8月14日

SparkStreaming入门到实战之(17)--大数据场景下数据异构之 Mysql实时写入HBase（借助canal kafka SparkStreaming）

摘要：背景：公司线下ETC机房有个Mycat集群，供订单系统使用，现需要进行数据异构将Mysql数据(近)实时写入另一套数据库用作读请求和数据归档用技术选型：binlog解析工具：阿里开源的canal 消息中间件：kafka 流式框架：SparkStreaming 上代码 canal解析mysqlbin 阅读全文

posted @ 2020-08-14 10:40 大码王阅读(418) 评论(0) 推荐(0)

2020年8月13日

SparkStreaming入门到实战之(16)--基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

摘要： 1.Canal是什么？2.如何编写Canal客户端？3.如何编写一个数据库操作的Spark程序代码？4.开发Spark项目时容易发生哪些冲突问题？Spark中的Spark Streaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时阅读全文

posted @ 2020-08-13 14:31 大码王阅读(378) 评论(0) 推荐(0)

大数据集群运维（35）sqoop安装与使用

摘要： sqoop 是什么：在关系数据库和hadoop之间数据的相互转换的工具。安装：原生安装：appache１．解压安装，２．重命名sqoop-1.4.5-cdh5.4.4/sqoop-env-template.sh 为sqoop-env.sh３．修改sqoop-env.sh配置：填写Hadoop，hba 阅读全文

posted @ 2020-08-13 11:41 大码王阅读(391) 评论(0) 推荐(0)

大数据集群运维（34）flume安装与使用

摘要： 1.flume简介 Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 2.安装和使用说明阅读全文

posted @ 2020-08-13 11:38 大码王阅读(234) 评论(0) 推荐(0)

大数据集群运维（33）MongoDB各系统上安装

摘要： MongoDB的文档模型自由灵活，可以让你在开发过程中畅顺无比。对于大数据量、高并发、弱事务的互联网应用，MongoDB可以应对自如。MongoDB内置的水平扩展机制提供了从百万到十亿级别的数据量处理能力，完全可以满足Web2.0和移动互联网的数据存储需求，其开箱即用的特性也大大降低了中小型网站的运阅读全文

posted @ 2020-08-13 11:32 大码王阅读(204) 评论(0) 推荐(0)

大数据集群运维（32）spark开发环境详细教程1：IntelliJ IDEA使用详细说明

摘要：各种开发环境的搭建，其实都是听简单。甚至我们可以通过命令行来开发。而且最原始的编程，其实可以通过文本或则cmd即可。还有maven，sbt等。后来的发展过程中，为了更加方便我们编程，于是发展出来了，更高级的编程工具，Java有eclipse等工具，而Scala有IntelliJ IDEA.当然ecl 阅读全文

posted @ 2020-08-13 11:30 大码王阅读(374) 评论(0) 推荐(0)

2020年8月11日

大数据集群运维（31）Spark提交任务时报beyond virtual memory limits错误

摘要：以Spark-Client模式运行，Spark-Submit时出现了下面的错误： User: hadoop Name: Spark Pi Application Type: SPARK Application Tags: YarnApplicationState: FAILED FinalStatu 阅读全文

posted @ 2020-08-11 22:30 大码王阅读(313) 评论(0) 推荐(0)

大数据集群运维（30）spark安装与使用（入门）

摘要：一：在linux下安装java环境（自行安装jdk）二：安装Scala2.9.3 $ tar -zxf scala-2.9.3.tgz $ sudo mv scala-2.9.3 /usr/lib $ sudo vim /etc/profile # add the following lines 阅读全文

posted @ 2020-08-11 18:21 大码王阅读(479) 评论(0) 推荐(0)

大数据集群运维（29）Zeppelin-在flink和spark集群的安装

摘要： Zeppelin-在flink和spark集群的安装该教程主要面向Zeppelin的入门者。不需要太多的关于 Linux, git, 或其它工具的基础知识。如果你按照这里的方法逐项执行，就可以将 Zeppelin 正常运行起来。安装Zeppelin为Flink/Spark集群模式本教程假定用户阅读全文

posted @ 2020-08-11 17:50 大码王阅读(598) 评论(0) 推荐(0)

大数据集群运维（28） Kylin 配置使用 flink 构建 Cube

摘要：用 Flink 构建 Cube Kylin v3.1 引入了 Flink cube engine，在 build cube 步骤中使用 Apache Flink 代替 MapReduce；您可以查看 KYLIN-3758 了解具体信息。当前的文档使用样例 cube 对如何尝试 new engine 阅读全文

posted @ 2020-08-11 17:39 大码王阅读(795) 评论(0) 推荐(0)

大数据集群运维（27）Kylin 配置使用 Spark 构建 Cube

摘要： HDP版本：2.6.4.0 Kylin版本：2.5.1 机器：三台 CentOS-7，8G 内存 Kylin 的计算引擎除了 MapReduce ，还有速度更快的 Spark ，本文就以 Kylin 自带的示例 kylinsalescube 来测试一下 Spark 构建 Cube 的速度。一、配置阅读全文

posted @ 2020-08-11 17:05 大码王阅读(383) 评论(0) 推荐(0)

大数据集群运维（26）Apache Kylin 2.5.0安装和使用

摘要： 1.背景 Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 Apache Kylin官网：http://kylin.apache.o 阅读全文

posted @ 2020-08-11 16:58 大码王阅读(546) 评论(0) 推荐(0)

大数据集群运维（25）CDH安装

摘要： CDH 安装市场上免费大数据框架主要有三个版本，原生的 Apache 版本，Cloudera(https://www.cloudera.com/) 公司研发的（Cloudera Distribution Hadoop，简称“CDH”）CDH 版本，也是市场上使用最多的，Hortonworks 版本阅读全文

posted @ 2020-08-11 16:44 大码王阅读(526) 评论(0) 推荐(0)

大数据集群运维（24）kylin 系列（一）安装部署

摘要： kylin 系列（一）安装部署一、环境说明 1.1 版本选择 cdh 版本下载地址：http://archive.cloudera.com/cdh5/cdh/5/ 软件名称版本 JDK 1.8 HADOOP Hadoop2.6.0-cdh5.10 ZOOKEERER 3.4.5 HBASE Hba 阅读全文

posted @ 2020-08-11 16:42 大码王阅读(437) 评论(0) 推荐(0)

2020年8月7日

人工智能深度学习入门练习之（38）深度学习 – tensorflow实例之keras的siamese(孪生网络)实现案例

摘要：一、 keras的siamese(孪生网络)实现案例二、代码实现 import keras import numpy as np import matplotlib.pyplot as plt import random from keras.callbacks import TensorBoar 阅读全文

posted @ 2020-08-07 09:56 大码王阅读(1068) 评论(0) 推荐(0)

2020年8月6日

人工智能深度学习入门练习之（37）深度学习 – TensorFlow实现CNN神经网络算法

摘要：一、CNN的引入在人工的全连接神经网络中，每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时，这时全连接网络需要训练的参数就会增大很多，计算速度就会变得很慢，例如一张黑白的 28×2828×28 的手写数字图片，输入层的神经元就有784个，如下图所示：若在中间只使用一层隐阅读全文

posted @ 2020-08-06 18:29 大码王阅读(652) 评论(0) 推荐(1)

人工智能深度学习入门练习之（36）深度学习 – 使用深度学习实现智能聊天机器人

摘要： .聊天机器人的类型本文分为了哪些类型？2.聊天机器人的有几种主流技术？3.如何利用深度学习构建聊天机器人？聊天机器人（也可以称为语音助手、聊天助手、对话机器人等）是目前非常热的一个人工智能研发与产品方向。很多大型互联网公司投入重金研发相关技术，并陆续推出了相关产品，比如苹果Siri、微软Corta 阅读全文

posted @ 2020-08-06 17:35 大码王阅读(733) 评论(0) 推荐(0)

2020年7月31日

flink入门到实战（10）Apache Flink 介绍

摘要：前言 Flink 是一种流式计算框架，为什么我会接触到 Flink 呢？因为我目前在负责的是监控平台的告警部分，负责采集到的监控数据会直接往 kafka 里塞，然后告警这边需要从 kafka topic 里面实时读取到监控数据，并将读取到的监控数据做一些聚合/转换/计算等操作，然后将计算后的结阅读全文

posted @ 2020-07-31 22:14 大码王阅读(472) 评论(0) 推荐(0)

2020年7月30日

数据结构之（6）python实现双链表

摘要：介绍双向链表比之单向链表，多数操作方法的实现都没有什么不同，如is_empty, __len__, traverse, search。这些方法都没有涉及节点的变动，也就可通过继承单向链表来实现即可。不同之处一是在于节点实现的不同。因为增加了指向前一个节点的前驱区，因此需要为节点添加一个新属性pr 阅读全文

posted @ 2020-07-30 16:56 大码王阅读(744) 评论(0) 推荐(0)

2020年7月9日

数据结构之（5）python实现单链表

摘要：介绍为什么需要链表？对于上部分顺序表的学习，我们了解到在构建顺序表时需要预先知道数据大小来申请连续的存储空间，而在进行扩充的时候又需要进行数据的搬迁，所以使用起来并不是很灵活。那我们就想，能不能存在一种数据结构是的在数据扩充的时候，在原有的数据完全不变化，扩充一个数据就增加一个，我们需要这样的阅读全文

posted @ 2020-07-09 15:24 大码王阅读(516) 评论(0) 推荐(0)

公告