2018 年 1月随笔档案 - anlcy

kafka实战

摘要：1. kafka介绍相关术语介绍： Broker Kafka集群包含一个或多个服务器，这种服务器被称为broker[5] Topic 每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broke 阅读全文

posted @ 2018-01-31 11:19 anlcy 阅读(430) 评论(0) 推荐(0)

Spark Streaming通过JDBC操作数据库

摘要：本文记录了学习使用Spark Streaming通过JDBC操作数据库的过程，源数据从Kafka中读取。 Kafka从0.10版本提供了一种新的消费者API，和0.8不同，因此Spark Streaming也提供了两种API与之对应，其中spark-streaming-kafka-0-8支持Kafk 阅读全文

posted @ 2018-01-25 14:11 anlcy 阅读(996) 评论(0) 推荐(0)

maven项目使用log4j

摘要：日志是应用软件中不可缺少的部分，Apache的开源项目 log4j 是一个功能强大的日志组件,提供方便的日志记录。 1.maven项目在pom.xml导入log4j依赖： <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifac 阅读全文

posted @ 2018-01-23 10:37 anlcy 阅读(1104) 评论(0) 推荐(0)

Log4j的配置

摘要：log4j简介 Log4j是Apache的一个开放源代码项目，通过使用Log4j，我们可以控制日志信息输送的目的地是控制台、文件等；我们也可以控制每一条日志的输出格式；通过定义每一条日志信息的级别，我们能够更加细致地控制日志的生成过程。 log4j三大组件 Log4j由三个重要的组件构成：日志信息的阅读全文

posted @ 2018-01-23 10:31 anlcy 阅读(182) 评论(0) 推荐(0)

将Maven项目打包成可执行jar文件(引用第三方jar)

摘要：方法一. mvn assembly 或 mvn package (一个jar包) 把依赖包和自己项目的文件打包如同一个jar包(这种方式对spring的项目不支持) <build> <plugins> <plugin> <artifactId>maven-assembly-plugin</artif 阅读全文

posted @ 2018-01-23 10:03 anlcy 阅读(1524) 评论(0) 推荐(0)

Spark-SQL之DataFrame操作

摘要：Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成阅读全文

posted @ 2018-01-19 10:41 anlcy 阅读(1394) 评论(0) 推荐(0)

Spark SQL访问PostgreSQL

摘要：随着Spark SQL的正式发布，以及它对DataFrame的支持，它可能会取代HIVE成为越来越重要的针对结构型数据进行分析的平台。在博客文章What’s new for Spark SQL in Spark 1.3中，Databricks的工程师Michael Armbrust着重介绍了改进了的阅读全文

posted @ 2018-01-17 16:19 anlcy 阅读(4942) 评论(0) 推荐(0)

各数据库连接maven配置

摘要：Derbydb driver maven dependency<dependency> <groupId>org.apache.derby</groupId> <artifactId>derbyclient</artifactId> <version>10.2.2.0</version></depe 阅读全文

posted @ 2018-01-17 16:13 anlcy 阅读(1151) 评论(0) 推荐(0)

maven POM.xml 标签详解

摘要：pom作为项目对象模型。通过xml表示maven项目，使用pom.xml来实现。主要描述了项目：包括配置文件；开发者需要遵循的规则，缺陷管理系统，组织和licenses，项目的url，项目的依赖性，以及其他所有的项目相关因素。 <span style="padding:0px; margin:0px 阅读全文

posted @ 2018-01-17 14:25 anlcy 阅读(144) 评论(0) 推荐(0)

Spark Streaming 实现思路与模块概述

摘要：一、基于 Spark 做 Spark Streaming 的思路 Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表述：在本节，我们先探讨一下基于 Spark Core 的 RDD API，如何对 streaming data 进行处理。理解下面描述的这个思阅读全文

posted @ 2018-01-17 11:26 anlcy 阅读(319) 评论(0) 推荐(0)

spark submit参数及调优

摘要：park submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deplo 阅读全文

posted @ 2018-01-17 11:06 anlcy 阅读(10637) 评论(0) 推荐(1)

spark中RDD的转化操作和行动操作

摘要：本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言阅读全文

posted @ 2018-01-16 15:02 anlcy 阅读(1041) 评论(0) 推荐(0)

解决在编程方式下无法访问Spark Master问题

摘要：我们可以选择使用spark-shell，spark-submit或者编写代码的方式运行Spark。在产品环境下，利用spark-submit将jar提交到spark，是较为常见的做法。但是在开发期间，每次都需要编译jar去做提交是一件麻烦事儿。尤其是在IDE例如IntelliJ Idea下，更直接的阅读全文

posted @ 2018-01-16 14:09 anlcy 阅读(1668) 评论(0) 推荐(0)

Spark启动时的master参数以及Spark的部署方式

摘要：我们在初始化SparkConf时，或者提交Spark任务时，都会有master参数需要设置，如下： conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) /bin/spark-sub 阅读全文

posted @ 2018-01-16 13:55 anlcy 阅读(4288) 评论(0) 推荐(1)

Spark Streaming

摘要：Spark Streaming基于Spark处理流式数据的框架，在MapReduce中，由于其分布式特性——所有数据需要读写磁盘、启动job耗时较大，难以满足时效性要求。而Streaming能够在Spark上生根发芽的原因是因为其内存特性、低延时的执行引擎和高速的执行效率。Streaming的原理是阅读全文

posted @ 2018-01-16 10:41 anlcy 阅读(295) 评论(0) 推荐(0)

Eclipse+maven+scala+spark环境搭建

摘要：准备条件我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse for Java EE，这个和Eclipse 是一样的最好是用高版本的Eclipse,版本太低的阅读全文

posted @ 2018-01-12 14:07 anlcy 阅读(3059) 评论(0) 推荐(0)

Scala-IDE构建Maven项目

摘要：本教程演示如何使用Scala-IDE构建一个Scala Maven项目。 1. 下载Scala IDE 通过以下链接下载Scala IDE： http://scala-ide.org/download/sdk.html 根据自己的平台选择自己相应版本下载。下载完成之后解压，如下：选择eclipse 阅读全文

posted @ 2018-01-12 11:24 anlcy 阅读(382) 评论(0) 推荐(0)

新建maven项目错误处理

摘要：1.如果新建maven 项目确省maven dependencies,则在存在问题工程的.classpath末尾加上 <classpathentry kind="con" path="org.eclipse.m2e.MAVEN2_CLASSPATH_CONTAINER"> <attributes> 阅读全文

posted @ 2018-01-10 18:18 anlcy 阅读(165) 评论(0) 推荐(0)

maven的安装教程

摘要：下载地址为：http://maven.apache.org/download.cgi 进入此页面之后点击下载，然后解压，我把目录名改为maven，目录结构如下图所示下面我们配置环境变量这是maven_home: 在path变量的最后面加上 ;%maven_home%\bin %号前面的;号不能阅读全文

posted @ 2018-01-10 16:20 anlcy 阅读(169) 评论(0) 推荐(0)

Hive2.0函数大全(中文版)

摘要：摘要 Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数 Return Type Name (Signatu 阅读全文

posted @ 2018-01-08 10:12 anlcy 阅读(343) 评论(0) 推荐(0)

anlcy

01 2018 档案

公告