01 2021 档案

摘要:当一个车前进之后。后边的车不会快速补上来(要是可以快速补上来就不会出现堵车了) 元胞自动机的相关要素: 邻居 规则: 森林火灾: 交通: 阅读全文
posted @ 2021-01-31 17:03 喜欢爬的孩子 阅读(121) 评论(0) 推荐(0)
摘要:首先tf1.的开启回话语句是这样的: # 开启会话 with tf.Session() as sess: c_t_value = sess.run(c_t) print("c_t_value:\n", c_t_value) 现在对于tf2.的用户应该这样做: # 开启会话 tf.compat.v1. 阅读全文
posted @ 2021-01-31 15:55 喜欢爬的孩子 阅读(494) 评论(0) 推荐(0)
摘要:基本操作: 生成数组的方法: 生成0和1的数组: 从现有数组生成: 生成固定范围的数组: 生成随机数组: 案例:随机生成八只股票交易两周的日涨幅数据 切片索引: 形状修改: 阅读全文
posted @ 2021-01-30 12:28 喜欢爬的孩子 阅读(61) 评论(0) 推荐(0)
摘要:机器学习和深度学习两者之前的区别: 特征提取方面: 数据量和计算性能要求: 算法代表: tensorflow的使用 tf数据流图: 用tensorflow实现一个简单的加法运算: import tensorflow as tf import os os.environ['TF_CPP_MIN_LOG 阅读全文
posted @ 2021-01-29 18:25 喜欢爬的孩子 阅读(136) 评论(0) 推荐(0)
摘要:numpy介绍: numpy: ndarray介绍: ndarray与Python原生list运算效率对比: ndarray优势: 存储风格: 并行化运算: 底层语言: ndarray属性 ndarray形状; ndarray类型; 阅读全文
posted @ 2021-01-29 11:03 喜欢爬的孩子 阅读(118) 评论(0) 推荐(0)
摘要:介绍: 我们将机器学习定义为一组能够自动检测模式数据的方法,然后利用未发现的模式来预测未来的数据,或者在不确定的情况下执行各种决策(例如计划如何收集更多的数据)! 大数据分析和人工智能已经成为整个社会发展最主要的基础推动力,两者的基础都是机器学习。大数据分析火热的深刻原因 ·数据源︰非结构化数据(语 阅读全文
posted @ 2021-01-28 18:59 喜欢爬的孩子 阅读(94) 评论(0) 推荐(0)
摘要:常见图形种类及其意义: 散点图; # 需求:探究房屋面积和房屋价格的关系 # 1、准备数据 x = [225.98, 247.07, 253.14, 457.85, 241.58, 301.01, 20.67, 288.64, 163.56, 120.06, 207.83, 342.75, 147. 阅读全文
posted @ 2021-01-28 09:13 喜欢爬的孩子 阅读(294) 评论(0) 推荐(0)
摘要:一般情况下启动jupyter notebook会默认是c盘。 那怎样打开D盘等文件呢: 具体操作如下:win + R 启动“运行”,输入cmd,在cmd窗口输入以下代码即可:· cd /d [路径]· jupyter notebook 操作图如下; 阅读全文
posted @ 2021-01-28 08:10 喜欢爬的孩子 阅读(410) 评论(0) 推荐(0)
摘要:运行如下代码; # 需求:画出某城市11点到12点1小时内每分钟的温度变化折线图,温度范围在15度~18度 import random import matplotlib.pyplot as plt # 1、准备数据 x y x = range(60) y_shanghai = [random.un 阅读全文
posted @ 2021-01-27 22:16 喜欢爬的孩子 阅读(973) 评论(0) 推荐(0)
摘要:matplotlib介绍: Matplotlib 是专门用于开发2D图表(包括3D图表)的python库 对应的JS库有 D3 (opens new window)echarts 官网:Matplotlib 为神魔要学习matplotlib: 实现一个简单的matplotlib画图: 我们可以将图丰 阅读全文
posted @ 2021-01-27 20:34 喜欢爬的孩子 阅读(139) 评论(0) 推荐(0)
摘要:运行一个案例如下: 如果使用pycharm就必须关掉图表之后才能显示数据 操作的相关注意事项: Cell操作: markdown演示: 阅读全文
posted @ 2021-01-26 20:56 喜欢爬的孩子 阅读(109) 评论(0) 推荐(0)
摘要:知识点: 参考链接: https://www.cnblogs.com/lwn-blog/p/9191388.html https://zhuanlan.zhihu.com/p/23605789 https://www.cnblogs.com/xp-thebest/p/14311174.html 代码 阅读全文
posted @ 2021-01-25 14:50 喜欢爬的孩子 阅读(244) 评论(0) 推荐(0)
摘要:模型保存和加载 sklearn模型的保存和加载API from sklearn.externals import joblib 保存:joblib.dump(rf, 'test.pkl') 加载:estimator = joblib.load('test.pkl') 线性回归的模型保存加载案例 #4 阅读全文
posted @ 2021-01-24 17:06 喜欢爬的孩子 阅读(1747) 评论(0) 推荐(0)
摘要:逻辑回归: 逻辑回归的应用场景 广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器 逻辑回归的原理 输出结果解释(重要):假设有两个类别A,B,并且假设我们的概率值为属于A(1)这个类别的 阅读全文
posted @ 2021-01-24 12:02 喜欢爬的孩子 阅读(137) 评论(0) 推荐(0)
摘要:什么是过拟合与欠拟合: 分析 第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。 第二种情况:机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。 定义 阅读全文
posted @ 2021-01-23 19:27 喜欢爬的孩子 阅读(121) 评论(0) 推荐(0)
摘要:线性模型 线性回归应用场景 什么是线性回归 定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,大于一个自变量情况的叫做多元回归 那么怎么理解呢?我们 阅读全文
posted @ 2021-01-23 18:01 喜欢爬的孩子 阅读(450) 评论(0) 推荐(0)
摘要:上代码(挺简单的):可自己修改颜色 from turtle import * setup(500,500) pencolor('pink') fillcolor('red') begin_fill() left(140) forward(111.65) for i in range(200): ri 阅读全文
posted @ 2021-01-23 16:01 喜欢爬的孩子 阅读(5624) 评论(0) 推荐(0)
摘要:向QQ好友发送消息通过Python语句: 注意点(提前打开聊天窗口、设置代码暂停时间(不认大量数据由于发送频繁QQ会提示失败)) 两个代码任选其一 import win32gui import win32con import win32clipboard import time class CSen 阅读全文
posted @ 2021-01-23 15:47 喜欢爬的孩子 阅读(3745) 评论(6) 推荐(0)
摘要:手机端点击发送验证码,请求发送到python端, 由python调用第三方平台 使用的是榛子云短信http://smsow.zhenzikj.com 的短信接口, 下载开发包 下载后的SDK只包含一个zhenzismsclient.py文件,直接导入到工程中即可使用。 3. 引入模块 import 阅读全文
posted @ 2021-01-22 14:56 喜欢爬的孩子 阅读(2049) 评论(0) 推荐(0)
摘要:Anaconda的下载网址: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 在里面选择自己适合的版本下载进行安装: (这里本人两个框框都选择了。这样就不用再自己配置环境变量了) 配置环境变量(如果你上边的第一个没有打钩): 主要有三个环 阅读全文
posted @ 2021-01-21 21:51 喜欢爬的孩子 阅读(932) 评论(0) 推荐(0)
摘要:朴素贝叶斯算法 什么是朴素贝叶斯分类方法 条件概率与联合概率 联合概率:包含多个条件,且所有条件同时成立的概率 记作:P(A,B) 特性:P(A, B) = P(A)P(B) 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率 记作:P(A|B) 特性:P(A1,A2|B) = P(A1| 阅读全文
posted @ 2021-01-21 18:54 喜欢爬的孩子 阅读(740) 评论(0) 推荐(0)
摘要:运用Python中决策树算法遇到了安装可视化工具的问题。 1、安装pydotplus 打开Anaconda Prompt,输入pip install pydotplus,回车,successful。 出现GraphViz's executables not found报错很有可能是环境变量没添加上或 阅读全文
posted @ 2021-01-21 16:14 喜欢爬的孩子 阅读(5817) 评论(0) 推荐(0)
摘要:Facebook签到位置预测K值调优 #案例facebook def facebook_demo(): data = pd.read_csv("C:/Users/26301/Desktop/train.csv") #缩小数据范围 data = data.query("x<2.5 & x>2 & y< 阅读全文
posted @ 2021-01-20 22:12 喜欢爬的孩子 阅读(232) 评论(0) 推荐(0)
摘要:sklearn转化器和预估器 转换器: 想一下之前做的特征工程的步骤? 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) 我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式 fit_transf 阅读全文
posted @ 2021-01-20 21:07 喜欢爬的孩子 阅读(275) 评论(0) 推荐(1)
摘要:案例:探究用户对物品类别的喜好细分降维 数据如下: order_products__prior.csv:订单与商品信息 字段:order_id, product_id, add_to_cart_order, reordered products.csv:商品信息 字段:product_id, pro 阅读全文
posted @ 2021-01-20 14:29 喜欢爬的孩子 阅读(468) 评论(0) 推荐(0)
摘要:特征预处理: 什么是特征预处理? 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。 我们需要用到一些方法进行无量纲化,使不同规格的数据转换到同一规格 为什么我们要进行归一化/标准化? 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果 阅读全文
posted @ 2021-01-19 22:56 喜欢爬的孩子 阅读(1501) 评论(0) 推荐(0)
摘要:sklearn数据集 1 scikit-learn数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集,数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集,需要从网络 阅读全文
posted @ 2021-01-19 19:07 喜欢爬的孩子 阅读(598) 评论(0) 推荐(0)
摘要:源码如下: import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator # 打开文件 text_from_file = open('2019n 阅读全文
posted @ 2021-01-19 12:43 喜欢爬的孩子 阅读(4755) 评论(0) 推荐(0)
摘要:直接上代码:(商品名称、单价、图片链接) import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; enc=ooWAQ8HPiB 阅读全文
posted @ 2021-01-19 12:25 喜欢爬的孩子 阅读(569) 评论(0) 推荐(0)
摘要:一、virtualenv 安装 1、下载distribute_setup.py文件,文件压缩包下载完之后,放在以前安装Python的目录下就行。双击运行文件(双击之后cmd会打开之后闪退,就是安装成功)。 运行这个文件: 链接:https://pypi.python.org/packages/sou 阅读全文
posted @ 2021-01-18 22:33 喜欢爬的孩子 阅读(1223) 评论(0) 推荐(0)
摘要:编程模型解释 RDD rdd.flatMap(_.split(" ")) .map((_, 1)) .reduceByKey(_ + _) .collect 针对自定义数据对象进行处理, 可以处理任意类型的对象, 比较符合面向对象 RDD 无法感知到数据的结构, 无法针对数据结构进行编程 DataF 阅读全文
posted @ 2021-01-18 17:01 喜欢爬的孩子 阅读(121) 评论(0) 推荐(1)
摘要:SparkStreaming Spark Streaming 的特点 特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码 一个非常重要的特点是, Spark Str 阅读全文
posted @ 2021-01-17 21:55 喜欢爬的孩子 阅读(100) 评论(0) 推荐(0)
摘要:需求介绍 思路整理 需求 项目的任务是统计出租车在不同行政区的平均等待时间, 所以源数据集和经过计算希望得到的新数据集大致如下 源数据集 目标数据集 目标数据集分析 目标数据集中有三列, borough, avg(seconds), stddev_samp(seconds) borough 表示目的 阅读全文
posted @ 2021-01-17 14:50 喜欢爬的孩子 阅读(199) 评论(0) 推荐(0)
摘要:Spark SQL 基本操作: 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , " 阅读全文
posted @ 2021-01-17 13:18 喜欢爬的孩子 阅读(874) 评论(0) 推荐(0)
摘要:词频统计: 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例: 代码及结果: @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w 阅读全文
posted @ 2021-01-17 11:22 喜欢爬的孩子 阅读(256) 评论(0) 推荐(0)
摘要:SparkSQL 练习项目 - 出租车利用率分析 数据集结构 字段示例示意 hack_license BA96DE419E711691B9445D6A6307C170 执照号, 可以唯一标识一辆出租车 pickup_datetime 2013-01-01 15:11:48 上车时间 dropoff_ 阅读全文
posted @ 2021-01-16 19:44 喜欢爬的孩子 阅读(279) 评论(0) 推荐(0)
摘要:函数: 聚合每个类别的总价; val spark = SparkSession.builder() .appName("window") .master("local[6]") .getOrCreate() import spark.implicits._ val source = Seq( ("T 阅读全文
posted @ 2021-01-16 13:42 喜欢爬的孩子 阅读(160) 评论(0) 推荐(0)
摘要:学习内容; Bp 神经网络的简单理解 首先从名称中可以看出,Bp神经网络可以分为两个部分,bp和神经网络。 bp是 Back Propagation 的简写 ,意思是反向传播。而神经网络,听着高大上,其实就是一类相对复杂的计算网络。举个简单的例子来说明一下,什么是网络。 看这样一个问题,假如我手里有 阅读全文
posted @ 2021-01-15 20:32 喜欢爬的孩子 阅读(1706) 评论(0) 推荐(0)
摘要:spark-shell 交互式编程: 请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt,该数据集包含 了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,D 阅读全文
posted @ 2021-01-15 15:29 喜欢爬的孩子 阅读(1161) 评论(0) 推荐(0)
摘要:第二章不同软件项目的需求视图 -读后总结: 信息系统的需求视图: 直到今天,信息系统在软件项目所占的比例也是做高的,因此研究信息系统的本质和分类对于需求工作的开展是尤为重要的。 信息系统的本质与分类: 信息系统是人和数据、过程和接口的组合,主要体会如下几个要素。支持企业的日常运作、支持解决问题、支持 阅读全文
posted @ 2021-01-14 21:53 喜欢爬的孩子 阅读(102) 评论(0) 推荐(0)
摘要:聚合操作: groupby: // 1. 创建 SparkSession val spark = SparkSession.builder() .master("local[6]") .appName("agg processor") .getOrCreate() import spark.impl 阅读全文
posted @ 2021-01-14 19:35 喜欢爬的孩子 阅读(440) 评论(0) 推荐(0)
摘要:column对象: 分类操作解释 创建 ' 单引号 ' 在 Scala 中是一个特殊的符号, 通过 ' 会生成一个 Symbol 对象, Symbol 对象可以理解为是一个字符串的变种, 但是比字符串的效率高很多, 在 Spark 中, 对 Scala 中的 Symbol 对象做了隐式转换, 转换为 阅读全文
posted @ 2021-01-14 12:58 喜欢爬的孩子 阅读(634) 评论(0) 推荐(0)
摘要:有类型转换: map: @Test def trans(): Unit = { // 3. flatMap val ds1 = Seq("hello spark", "hello hadoop").toDS ds1.flatMap( item => item.split(" ") ).show() 阅读全文
posted @ 2021-01-13 22:15 喜欢爬的孩子 阅读(184) 评论(0) 推荐(0)
摘要:初识 DataFrameReader: SparkSQL 的一个非常重要的目标就是完善数据读取, 所以 SparkSQL 中增加了一个新的框架, 专门用于读取外部数据源, 叫做 DataFrameReader @Test def reader1(): Unit = { // 1. 创建 SparkS 阅读全文
posted @ 2021-01-13 20:44 喜欢爬的孩子 阅读(529) 评论(0) 推荐(0)
摘要:RDD 和 SparkSQL 运行时的区别 RDD 的运行流程 大致运行步骤 先将 RDD 解析为由 Stage 组成的 DAG, 后将 Stage 转为 Task 直接运行 问题 任务会按照代码所示运行, 依赖开发者的优化, 开发者的会在很大程度上影响运行效率 解决办法 创建一个组件, 帮助开发者 阅读全文
posted @ 2021-01-12 14:18 喜欢爬的孩子 阅读(316) 评论(0) 推荐(0)
摘要:一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4.熟练掌握 Scala 的 REPL 阅读全文
posted @ 2021-01-12 11:03 喜欢爬的孩子 阅读(189) 评论(0) 推荐(0)
摘要:数据分析的方式: 命令式 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算. 命令式的优点 操作粒度更细, 能够控制数据的每一个处理环节 操作更明确, 步骤更清晰, 容易维护 支持非结构化数据的操作 命令式的缺点 需要一 阅读全文
posted @ 2021-01-11 23:01 喜欢爬的孩子 阅读(115) 评论(0) 推荐(0)
摘要:最近看的是第一章:需求实践现状分析: 失败的根源: “在中国做软件太难了,客户连自己的需求都说不清楚”。这句话经常在我们耳边响起。但是正所谓:“它山之石可以攻玉”。 在做项目的时候,很多项目都是进度超期、成本超支。最主要的原因之一就是项目的重新启动, 在Standish Group总结的十大成功保证 阅读全文
posted @ 2021-01-11 20:46 喜欢爬的孩子 阅读(120) 评论(0) 推荐(0)
摘要:逻辑图: 表达的是什么: 逻辑图就是数据处理和存储的过程表达 什么是RDD之间的依赖关系: 什么是关系(依赖关系) ? 从算子视角上来看, splitRDD 通过 map 算子得到了 tupleRDD, 所以 splitRDD 和 tupleRDD 之间的关系是 map 但是仅仅这样说, 会不够全面 阅读全文
posted @ 2021-01-11 17:07 喜欢爬的孩子 阅读(274) 评论(0) 推荐(0)
摘要:这一节基本上全是概念::: 更新的几种写法: 部署: 逻辑: 其实 RDD 并没有什么严格的逻辑执行图和物理执行图的概念, 这里也只是借用这个概念, 从而让整个 RDD 的原理可以解释, 好理解. 对于 RDD 的逻辑执行图, 起始于第一个入口 RDD 的创建, 结束于 Action 算子执行之前, 阅读全文
posted @ 2021-01-11 13:45 喜欢爬的孩子 阅读(96) 评论(0) 推荐(0)
摘要:1. Checkpoint 目标 Checkpoint 的作用 Checkpoint 的使用 、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斩断 RDD 的依赖链, 并且将数据存储在可靠的存储引擎中, 例如支持分布式存储和副本机制的 HDFS. Checkpoint 阅读全文
posted @ 2021-01-11 12:42 喜欢爬的孩子 阅读(135) 评论(0) 推荐(0)
摘要:一、RDD的分区和Shuffle 目标 RDD 的分区操作 Shuffle 的原理 分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassan 阅读全文
posted @ 2021-01-10 20:50 喜欢爬的孩子 阅读(286) 评论(0) 推荐(0)
摘要:阶段练习 一、看看数据集格式 二、明确需求 三、明确步骤 1、读取文件 2、抽取需要的列 3、以年月为基础,进行reduceByKey统计东四地区的PM 4、排序 5、获取结果 四、编码 1、拷贝数据集 2、创建类 3、编写代码 4、运行测试 @Test def reduce():Unit={ // 阅读全文
posted @ 2021-01-10 12:32 喜欢爬的孩子 阅读(106) 评论(0) 推荐(0)
摘要:(所有转换操作的算子都是惰性的,在执行的时候。并不会真的去调度运行,求得结果。而是是生成对应的RDD,只有在Action操作的时候,才会真的运行求得结果) 一、Action操作: 1、collect(并不能适应所有的场景) 2、reduce 作用 对整个结果集规约, 最终生成一条数据, 是整个数据集 阅读全文
posted @ 2021-01-10 10:58 喜欢爬的孩子 阅读(243) 评论(0) 推荐(0)
摘要:一、转换操作: 1、mapPartitions的相关操作 @Test def mapPartitions():Unit={ //1、数据生成 //2、算子使用 //3、获取结果 sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitions(iter=>{ ite 阅读全文
posted @ 2021-01-09 23:50 喜欢爬的孩子 阅读(162) 评论(0) 推荐(0)
摘要:一、案例: 1、明确需求: 在访问日志中,统计独立ip数量TOP10 2、查看数据结构: ip:是时间戳Http Method Url..... 3、明确编码步骤: 3.1 取出ip,生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 阅读全文
posted @ 2021-01-08 22:14 喜欢爬的孩子 阅读(274) 评论(0) 推荐(0)
摘要:一、Map算子: 作用 把 RDD 中的数据 一对一 的转为另一种形式 调用 def map[U: ClassTag](f: T ⇒ U): RDD[U] 参数 f → Map 算子是 原RDD → 新RDD 的过程, 这个函数的参数是原 RDD 数据, 返回值是经过函数转换的新 RDD 的数据 注 阅读全文
posted @ 2021-01-08 20:27 喜欢爬的孩子 阅读(487) 评论(0) 推荐(0)
摘要:一、RDD概念 1、RDD在哪里: 2、RDD是什么: 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区.RDD 作为数据结构, 本质上是一个只读的分区记录集合. 一个 RDD 可以包含多个分区, 每个分区就是一个 DataSet 片段.RDD 之间可 阅读全文
posted @ 2021-01-08 19:31 喜欢爬的孩子 阅读(327) 评论(0) 推荐(0)
摘要:1、独立应用的形式 (上线、放在集群中运行) 1.1本地运行的方式 idea创建web项目添加scala和maven依赖。 配置pom文件: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/ 阅读全文
posted @ 2021-01-08 15:02 喜欢爬的孩子 阅读(128) 评论(0) 推荐(0)
摘要:一、下载相应的sdk进行变量配置: ScalaSDK下载地址:http://www.scala-lang.org/download/ idea下载地址:https://www.jetbrains.com/idea/ 根据解压的路径配置环境变量和系统变量。 之后再配置环境变量就好了(双击系统变量中的p 阅读全文
posted @ 2021-01-08 10:59 喜欢爬的孩子 阅读(1048) 评论(0) 推荐(0)
摘要:一、编写spark代码的几种方式: (主要看重的方面:1、观察数据集 2、编写代码测试数据集 3、固化代码、提交集群运行上线) 1、spark-shell (数据集的探索、测试) Spark shell 简介 启动 Spark shell进入 Spark 安装目录后执行 spark-shell -- 阅读全文
posted @ 2021-01-08 10:29 喜欢爬的孩子 阅读(803) 评论(0) 推荐(0)
摘要:第一步: 第二步: 第三步: 运行结果如下: spark比较擅长做迭代的操作的相关计算。 阅读全文
posted @ 2021-01-07 20:49 喜欢爬的孩子 阅读(66) 评论(0) 推荐(0)
摘要:1、spark的相关特点 速度快、易用、通用、兼容 速度快::+--* Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍* 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍* Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存 阅读全文
posted @ 2021-01-07 20:20 喜欢爬的孩子 阅读(85) 评论(0) 推荐(0)
摘要:1、第一种交互方式:(bin/hive) 启动会有一些慢 类似于mysql的终端 查看有哪些数据库 创建数据库操作 在数据库中创建表 查看表 2、第二种交互方式:(使用sql语句或者sql脚本进行交互) 2.1不进入hive的客户端直接执行hive的hql语句 2.2将hql语句写成一个sql脚本然 阅读全文
posted @ 2021-01-06 19:01 喜欢爬的孩子 阅读(117) 评论(0) 推荐(0)