随笔分类 - Spark
摘要:引自:https://www.slideshare.net/datamantra/introduction-to-flink-streaming
阅读全文
摘要:网址:http://blog.madhukaraphatak.com/ 首页:
阅读全文
摘要:根据一些公开资料整理,也许有失偏颇,仅供参考: 1.第一代 Hadoop 承载的 MapReduce 2.第二代 支持 DAG(有向无环图) 的框架: Tez 、 Oozie,主要还是批处理任务 3.第三代 Job 内部的 DAG(有向无环图) 支持(不跨越 Job),以及强调的实时计算:Spark
阅读全文
摘要:随着云计算的深入落地,大数据技术有了坚实的底层支撑,不断向前发展并日趋成熟,无论是传统企业还是互联网公司,都不再满足于离线批处理计算,而是更倾向于应用实时流计算,要想在残酷的企业竞争中立于不败之地,企业数据必须被快速处理并输出结果,流计算无疑将是企业Must Have的大杀器。作为充电生态网的领军企
阅读全文
摘要:众所周知,Structured Streaming默认支持Kafka 0.10,没有提供针对Kafka 0.8的Connector,但这对高手来说不是事儿,于是有个Hortonworks的邵大牛(前段时间刚荣升Spark Committer)给出了一个开源的第三方解决方案: 不过下载下来后,编译不通
阅读全文
摘要:如果在在Spark、Flink应用中使用Protobuf 3的包,因为Spark默认使用的是2.5版本的包,提交任务时,可能会报如下异常: 针对Spark,可以使用SPARK_CLASSPATH或是指定 的方式解决,今天在调试Flink程序时,发现还有一种解决方式: If the uber JAR
阅读全文
摘要:前提: 假设已安装ignite,并且安装路径为:/usr/apache-ignite-fabric-2.1.0-bin 1.下载Web Agent 打开链接:https://console.gridgain.com/configuration/advanced/clusters 2.部署Web Ag
阅读全文
摘要:参考文章:https://apacheignite-fs.readme.io/docs/installation-deployment Spark application deployment model allows dynamic jar distribution during applicat
阅读全文
摘要:一、依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Scala 参见博文:http://www.cnblogs.com/liugh/p/6624491.html 二、文件准备 2.1 文件名称 spark-2.2
阅读全文
摘要:一、依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 二、文件准备 2.1 文件名称 alluxio-1.5.0-hadoop-2.7-bin.tar.gz 2.2 下载地址 http://downloads.alluxi
阅读全文
摘要:1.Properties set directly on the SparkConf take highest precedence, 2.then flags passed to spark-submit or spark-shell, 3.then options in the spark-de
阅读全文
摘要:1.resilient distributed dataset (RDD) The core programming abstraction in Spark, consisting of a fault-tolerant collection of elements that can be ope
阅读全文
摘要:参数名称 含义 --master MASTER_URL yarn --deploy-mode DEPLOY_MODE Driver程序运行的地方:client、cluster --class CLASS_NAME The FQCN of the class containing the main m
阅读全文
摘要:参数名称 含义 --master MASTER_URL spark://host:port --deploy-mode DEPLOY_MODE Driver程序运行的地方:client、cluster,默认是client --class CLASS_NAME 应用程序主类名称,含包名 --name
阅读全文
摘要:1.下载Windows版的NetCat https://eternallybored.org/misc/netcat/ 2.启动NetCat nc -l -p 9999 3.将SAPRK_HOME\conf\log4j.properties拷贝到项目根目录下,将“INFO”改为“ERROR”,保证只
阅读全文
摘要:使用spark-submit提交local任务时,会输出很多Info信息: 可以修改log4j的日志级别,只输出关键信息: 1.修改$SPARK_HOME/conf/log4j.properties 如果有log4j.properties.template,则复制一份为log4j.propertie
阅读全文
摘要:一、下载Saprk程序 https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz 解压到d:\spark-2.1.1-bin-hadoop2.7 二、下载winutil.exe https://github.com/ste
阅读全文
摘要:一、前置条件 安装NetCat(有“瑞士军刀”之称,简称nc),输入如下命令: 二、方式一:直接运行官方Example 2.1 打开一个shell,输入命令:nc -lk 9999 2.2 打开另一个shell,切换到SPARK_HOME/bin目录,输入命令: 三、方式二:spark-shell
阅读全文
摘要:一、依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Hadoop 参见博文:http://www.cnblogs.com/liugh/p/6624872.html 1.3 Scala 参见博文:http://ww
阅读全文

浙公网安备 33010602011771号