摘要:
1.下载Anaconda 1.下载最新版的Anoconda,可百度搜索“Anaconda 清华镜像”,下载对应系统机器位数的安装文件,我下载的windows-64bit。 网址如下:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 我是wi 阅读全文
posted @ 2020-06-15 18:06
大码王
阅读(3213)
评论(1)
推荐(0)
摘要:
import MySQLdb #查询数量 def Count(cur): count=cur.execute('select * from Student') print ('there has %s rows record' % count) #插入 def Insert(cur): sql = 阅读全文
posted @ 2020-06-15 17:13
大码王
阅读(249)
评论(0)
推荐(0)
摘要:
代码实现: import turtle turtle.goto(0,0) turtle.color("blue") turtle.pensize(5) turtle.circle(50) turtle.penup() turtle.goto(100,0) turtle.color("green") 阅读全文
posted @ 2020-06-15 16:44
大码王
阅读(772)
评论(0)
推荐(0)
摘要:
代码实现: #绘制彩色螺旋线 import turtle import time turtle.pensize(2) turtle.bgcolor("black") colors = ["red","yellow","purple","blue"] turtle.tracer(False) for 阅读全文
posted @ 2020-06-15 16:41
大码王
阅读(4967)
评论(0)
推荐(0)
摘要:
操纵海龟绘图有着许多的命令,这些命令可以划分为两种:一种为运动命令,一种为画笔控制命令1. 运动命令:forward(degree) #向前移动距离degree代表距离backward(degree) #向后移动距离degree代表距离right(degree) #向右移动多少度left(degre 阅读全文
posted @ 2020-06-15 16:32
大码王
阅读(2567)
评论(0)
推荐(0)
摘要:
本文讲Spark Streamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序读写操作有且仅有一次,即程序重启之后之前消费并且输出过的数据不再重复消费,接着上次消费的位置继续消费Kafka里的数据。Spark Streamming+Kafka 阅读全文
posted @ 2020-06-15 16:26
大码王
阅读(949)
评论(1)
推荐(0)
摘要:
1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲的只是同步历史数据,不包括同步增量数据。 2、Oracle和Hive的字段类型对应 利用Spark的字段类型自动匹配,本来以为Spark匹配的不是很好,只是简单的判断一下是否为数字、字符串,结果经验证,Spar 阅读全文
posted @ 2020-06-15 16:24
大码王
阅读(1023)
评论(0)
推荐(0)
摘要:
前言 Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark Streaming获取Kafka里的数据,需要自己将依赖添加SBT或Maven项目中,添加依赖更新项目之后,就可以在Eclipse等IDE里直接运行Spark Streamming+Kafka的程 阅读全文
posted @ 2020-06-15 16:18
大码王
阅读(456)
评论(0)
推荐(0)
摘要:
前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看起来要对用户去重,其实只要按照WordCount的思路,最后输出key的数量即可,所以可以利用SparkStreaming+Kafka 实现统计基于缓存的实时wordcount, 阅读全文
posted @ 2020-06-15 14:09
大码王
阅读(610)
评论(0)
推荐(0)
摘要:
前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序,什么意思呢,因为一般的SparkStreaming的wordcount程序比如官网上的,只能统计最新时间间隔内的每个单词的数量,而不能将历史的累加起来,本文是看了教程之后,自己实现了一下kafka的程序, 阅读全文
posted @ 2020-06-15 14:02
大码王
阅读(339)
评论(0)
推荐(0)
摘要:
前言 ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为json。 下面是我的源端和目标端的一些配置信息: -版本OGG版本ip别名 源端 OracleRelease 11.2.0.1.0 阅读全文
posted @ 2020-06-15 11:02
大码王
阅读(513)
评论(0)
推荐(0)
摘要:
前言 首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程,只是简单的介绍如何利用spark 连接kafka,并消费数据,由于博主也是才学,所以其中代码以实现为主,可能并不是最好的实现方式。 1、对应依赖 根据kafka版本选择对应的依赖,我的kafka 阅读全文
posted @ 2020-06-15 10:51
大码王
阅读(288)
评论(0)
推荐(0)
摘要:
1、在服务器(虚拟机)spark-shell连接hive 1.1 将hive-site.xml拷贝到spark/conf里 cp /opt/apache-hive-2.3.2-bin/conf/hive-site.xml /opt/spark-2.2.1-bin-hadoop2.7/conf/ 1. 阅读全文
posted @ 2020-06-15 10:43
大码王
阅读(2498)
评论(0)
推荐(0)
摘要:
1、基本概念和用法(摘自spark官方文档中文版) Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时,应该首选 JdbcRDD。这是因为结果是以数据框(DataFrame)返回的,且这样 Spark SQL操作轻松或便于连接其它数据源。 阅读全文
posted @ 2020-06-15 10:34
大码王
阅读(1404)
评论(0)
推荐(0)
摘要:
前言:由于只是在自己的虚拟机上进行学习,所以对hive只是进行最简单的配置,其他复杂的配置文件没有配置。 1、前提 1.1 安装配置jdk1.8 1.2 安装hadoop2.x hadoop单机模式安装见:centos7 hadoop 单机模式安装配置 1.3 安装mysql并配置myql允许远程访 阅读全文
posted @ 2020-06-15 10:24
大码王
阅读(547)
评论(0)
推荐(1)
摘要:
前言 由于现在要用spark,而学习spark会和hdfs和hive打交道,之前在公司服务器配的分布式集群,离开公司之后,自己就不能用了,后来用ambari搭的三台虚拟机的集群太卡了,所以就上网查了一下hadoop+hive的单机部署,以便自己能进行简单的学习,这里记录一下,本来想把hadoop和h 阅读全文
posted @ 2020-06-15 10:12
大码王
阅读(739)
评论(0)
推荐(0)
摘要:
前言 本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具 为什么使用客户端界面工具而不用命令行使用hive 通过界面工具查看分析hive里的数据要方便很多 业务人员没有权限通过命令行连接hive 领导喜欢在界面工具上查看hive 阅读全文
posted @ 2020-06-15 09:55
大码王
阅读(618)
评论(0)
推荐(0)


浙公网安备 33010602011771号