上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 40 下一页
摘要: package com.bjsxt.scala import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark 阅读全文
posted @ 2020-04-25 15:11 AI_Engineer 阅读(226) 评论(0) 推荐(0)
摘要: 函数基本用法 1.方法定义用def,函数的参数 要写类型,不写类型不可以。2.函数的返回值类型可以不写,会自动推断3.scala会将函数体中最后一行计算的结果当做返回值返回4.可以写“return”,写了return要显式的声明方法体的返回类型。5.定义方法时,如果不写“=”,那么无论方法体中最后一 阅读全文
posted @ 2020-04-24 17:45 AI_Engineer 阅读(175) 评论(0) 推荐(0)
摘要: 1.scala中定义在object中的变量,方法都是静态的,object叫对象,相当于java中的单例对象。object不可以传参,Trait也不可传参。2.scala 中一行代码后可以写“;”也可以不写,会有分号推断机制。多行代码写在一行要用分号隔开。3.定义变量用var,定义常量用val , a 阅读全文
posted @ 2020-04-24 17:17 AI_Engineer 阅读(308) 评论(0) 推荐(0)
摘要: scala简介 Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java虚拟机上,并兼容现有的Java程序。 Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库 阅读全文
posted @ 2020-04-24 10:31 AI_Engineer 阅读(154) 评论(0) 推荐(0)
摘要: scala代码: package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa 阅读全文
posted @ 2020-04-23 20:37 AI_Engineer 阅读(371) 评论(0) 推荐(0)
摘要: spark实现UserCF package cf import breeze.numerics.{pow, sqrt} import org.apache.spark.sql.SparkSession object UserCF { def main(args: Array[String]): Un 阅读全文
posted @ 2020-04-22 23:20 AI_Engineer 阅读(515) 评论(0) 推荐(0)
摘要: 计算切好词的两个句子的LCS(最长公共子序列) # -*- coding: utf-8 -*- from pyspark.sql.functions import udf from pyspark.sql.types import IntegerType from pyspark.sql impor 阅读全文
posted @ 2020-04-22 11:27 AI_Engineer 阅读(825) 评论(0) 推荐(0)
摘要: 取Hive中的数据写入Hbase中 package hbase import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} import org.apache.hadoop.hbase.client.{HTable, Put} imp 阅读全文
posted @ 2020-04-21 11:35 AI_Engineer 阅读(159) 评论(0) 推荐(0)
摘要: Spark Streaming简介 Spark Streaming架构 Spark Streaming作业提交 Spark Streaming窗口操作 Spark Streaming全局统计量 Spark Streaming容错性分析 WAL工作原理 Spark Streaming消费Kafka D 阅读全文
posted @ 2020-04-18 09:56 AI_Engineer 阅读(103) 评论(0) 推荐(0)
摘要: 简介 • Kafka是Linkedin于2010年12月份开源的消息系统 • 一种分布式的、基于发布/订阅的消息系统 • 特点: – 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化 – 高吞吐量:每秒百万级的消息读写 – 分布式:扩展能力强 – 多客户端支持:java、php、python、 阅读全文
posted @ 2020-04-15 21:09 AI_Engineer 阅读(164) 评论(0) 推荐(0)
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 40 下一页