02 2020 档案
摘要:键值对RDD(pair RDD)是常见的数据类型 用于聚合计算 一般先通过初始的ETL(抽取,转化、装载)操作来将数据转化为键值对形式。 pair RDD的创建 键值对就是我们常见的字典类型的数据 如果数据格式本身就是键值对,在读取时直接返回由其键值对数据组成的pair RDD。 如果将一个普通的R
阅读全文
摘要:RDD(Resilient Distributed Dataset)弹性分布式数据集 Spark程序如何工作: 即: step1: 从外部数据创建输入RDD step2: 使用诸如filter()这样的转换操作对RDD进行转换,以定义新的RDD step3: 告诉Spark对需要重用的中间结果RDD
阅读全文
摘要:第一: 匿名函数 lambda的理解 我们定义一个函数 def f(x): return x*2 以上是显式定义了这样一个函数,如果想隐式定义: 常常和filter,map,reduce等函数结合使用 第二: filter函数的理解 filter()函数用于过滤序列,是python的内置函数 语法
阅读全文
摘要:错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva
阅读全文
摘要:环境:win10 这里介绍了在spark环境下如何通过shell来打开python和scala 目标: 由于我擅长python语言,jupyter notebook 是我比较熟悉的编辑器(由于其方便的单元测试,可以很好的进行结果展示) 所以,我想在pyspark环境下启动jupyter notebo
阅读全文
摘要:本机:win10 python3.5.4 spark3.0.0 JDK13.0.1 scala2.13.1 hadoop2.7.7 shell的交互式环境是帮助你调试程序的! 情况一:如果想打开scala版本的shell 终端输入 spark-shell 进入scala的shell(由于没有添加--
阅读全文
摘要:本人情况: 首次接触大数据工具spark,只会python,sql; 不会java。 本机情况: win10新电脑,里面基本啥都没有,连java都没有 需求: 尝试单机安装spark,学习这个大数据工具,特来记录安装全过程。 第一步:安装JDK 1. 下载安装JDK JDK为java开发工具包(ja
阅读全文
摘要:之前一直想画这样的: 这样的: 这样的: 解决方案1 找了很多发现了这几个神奇的网站,卷积神经网络画图神器ConvNetDraw 我之前写的一个博客也有这样的介绍 画出来长这样 NN SVG ★★★★ 提供 三种典型 的神经网络绘图风格,个性化参数多 交互式绘图 解决方案2 自己用ppt画 我画出来
阅读全文
摘要:安装numpy,记得是Numpy+mkl的版本,否则后续安装matplotlib会出现问题。 step1: 下载wheel of NumPy build for AMD64 on Windows,在Python Extension Packages for Windows 下载 numpy-1.10
阅读全文
摘要:step1: 官网下载对应版本的python, 注意windows,mac,linux的选择 step2: 安装,具体可查看教程 step3: 配置环境变量 鼠标右键我的电脑 -> 属性 -> 点击高级系统设置 -> 点击环境变量 -> 点击PATH -> 在最后面加上我们的Python安装路径 -
阅读全文
摘要:解决: 安装pillow包
阅读全文
摘要:2020/03/01最新更新结果 最佳解决方案: 1. 首先安装好mathtype 2. 复制依赖文件 若word中没有显示mathtype,那就是MathPage.wll或MathType.dll文件没有拷贝到STARTUP子文件夹下 需要先去mathtype安装路径下找到MathPage.wll
阅读全文
摘要:所有设备均需要下载teamviewer 下载: 手机:直接在应用商店下载,需要看看版本,我这里下载的是14.4 电脑:teamviewer官网下载,需要下载版本为14.xx的软件,否则出现版本不兼容的问题!!! 如果不牵扯到手机的问题,直接两个电脑均在官网下载最新版。 下载完之后无脑安装即可,然后注
阅读全文