随笔档案「2021年1月」 - 喜欢爬的孩子

摘要：当一个车前进之后。后边的车不会快速补上来（要是可以快速补上来就不会出现堵车了）元胞自动机的相关要素：邻居规则：森林火灾：交通：阅读全文

posted @ 2021-01-31 17:03 喜欢爬的孩子阅读(124) 评论(0) 推荐(0)

RuntimeError: The Session graph is empty. Add operations to the graph before calling run().解决方法

摘要：首先tf1.的开启回话语句是这样的： # 开启会话 with tf.Session() as sess: c_t_value = sess.run(c_t) print("c_t_value:\n", c_t_value) 现在对于tf2.的用户应该这样做： # 开启会话 tf.compat.v1. 阅读全文

posted @ 2021-01-31 15:55 喜欢爬的孩子阅读(508) 评论(0) 推荐(0)

Python数据挖掘学习进度05（numpy基本操作）

摘要：基本操作：生成数组的方法：生成0和1的数组：从现有数组生成：生成固定范围的数组：生成随机数组：案例：随机生成八只股票交易两周的日涨幅数据切片索引：形状修改：阅读全文

posted @ 2021-01-30 12:28 喜欢爬的孩子阅读(82) 评论(0) 推荐(0)

深度学习进度01（深度和机器的区别、tensorflow的使用-tf数据流图）

摘要：机器学习和深度学习两者之前的区别：特征提取方面：数据量和计算性能要求：算法代表： tensorflow的使用 tf数据流图：用tensorflow实现一个简单的加法运算： import tensorflow as tf import os os.environ['TF_CPP_MIN_LOG 阅读全文

posted @ 2021-01-29 18:25 喜欢爬的孩子阅读(160) 评论(0) 推荐(0)

Python数据挖掘学习进度04（numpy介绍、ndarray介绍）

摘要：numpy介绍： numpy： ndarray介绍： ndarray与Python原生list运算效率对比： ndarray优势：存储风格：并行化运算：底层语言： ndarray属性 ndarray形状; ndarray类型; 阅读全文

posted @ 2021-01-29 11:03 喜欢爬的孩子阅读(134) 评论(0) 推荐(0)

机器学习十讲----第一讲

摘要：介绍：我们将机器学习定义为一组能够自动检测模式数据的方法，然后利用未发现的模式来预测未来的数据，或者在不确定的情况下执行各种决策(例如计划如何收集更多的数据）！大数据分析和人工智能已经成为整个社会发展最主要的基础推动力，两者的基础都是机器学习。大数据分析火热的深刻原因 ·数据源︰非结构化数据（语阅读全文

posted @ 2021-01-28 18:59 喜欢爬的孩子阅读(111) 评论(0) 推荐(0)

Python数据挖掘学习进度03（散点图、柱状图、直方图、饼图）

摘要：常见图形种类及其意义：散点图; # 需求：探究房屋面积和房屋价格的关系 # 1、准备数据 x = [225.98, 247.07, 253.14, 457.85, 241.58, 301.01, 20.67, 288.64, 163.56, 120.06, 207.83, 342.75, 147. 阅读全文

posted @ 2021-01-28 09:13 喜欢爬的孩子阅读(328) 评论(0) 推荐(0)

Jupyter Notebook打开任意文件夹

摘要：一般情况下启动jupyter notebook会默认是c盘。那怎样打开D盘等文件呢：具体操作如下：win + R 启动“运行”，输入cmd，在cmd窗口输入以下代码即可：· cd /d [路径]· jupyter notebook 操作图如下; 阅读全文

posted @ 2021-01-28 08:10 喜欢爬的孩子阅读(464) 评论(0) 推荐(0)

解决jupyter中使用plt出现中文乱码

摘要：运行如下代码; # 需求：画出某城市11点到12点1小时内每分钟的温度变化折线图，温度范围在15度~18度 import random import matplotlib.pyplot as plt # 1、准备数据 x y x = range(60) y_shanghai = [random.un 阅读全文

posted @ 2021-01-27 22:16 喜欢爬的孩子阅读(1002) 评论(0) 推荐(0)

Python数据挖掘学习进度02（matplotlib之helloword、折线图）

摘要：matplotlib介绍： Matplotlib 是专门用于开发2D图表（包括3D图表）的python库对应的JS库有 D3 (opens new window)echarts 官网：Matplotlib 为神魔要学习matplotlib：实现一个简单的matplotlib画图：我们可以将图丰阅读全文

posted @ 2021-01-27 20:34 喜欢爬的孩子阅读(155) 评论(0) 推荐(0)

Python数据挖掘学习进度01（jupyter notebook介绍）

摘要：运行一个案例如下：如果使用pycharm就必须关掉图表之后才能显示数据操作的相关注意事项： Cell操作： markdown演示：阅读全文

posted @ 2021-01-26 20:56 喜欢爬的孩子阅读(113) 评论(0) 推荐(0)

Python-web项目基于基于flask框架

摘要：知识点：参考链接： https://www.cnblogs.com/lwn-blog/p/9191388.html https://zhuanlan.zhihu.com/p/23605789 https://www.cnblogs.com/xp-thebest/p/14311174.html 代码阅读全文

posted @ 2021-01-25 14:50 喜欢爬的孩子阅读(266) 评论(0) 推荐(0)

机器学习进度10（模型保存和加载、KMeans、聚类模型评估）

摘要：模型保存和加载 sklearn模型的保存和加载API from sklearn.externals import joblib 保存：joblib.dump(rf, 'test.pkl') 加载：estimator = joblib.load('test.pkl') 线性回归的模型保存加载案例 #4 阅读全文

posted @ 2021-01-24 17:06 喜欢爬的孩子阅读(1783) 评论(0) 推荐(0)

机器学习进度09（逻辑回归）

摘要：逻辑回归：逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子，我们可以发现其中的特点，那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器逻辑回归的原理输出结果解释(重要)：假设有两个类别A，B，并且假设我们的概率值为属于A(1)这个类别的阅读全文

posted @ 2021-01-24 12:02 喜欢爬的孩子阅读(152) 评论(0) 推荐(0)

机器学习进度08（过欠拟合、岭回归）

摘要：什么是过拟合与欠拟合：分析第一种情况：因为机器学习到的天鹅特征太少了，导致区分标准太粗糙，不能准确识别出天鹅。第二种情况：机器已经基本能区别天鹅和其他动物了。然后，很不巧已有的天鹅图片全是白天鹅的，于是机器经过学习后，会认为天鹅的羽毛都是白的，以后看到羽毛是黑的天鹅就会认为那不是天鹅。定义阅读全文

posted @ 2021-01-23 19:27 喜欢爬的孩子阅读(165) 评论(0) 推荐(0)

机器学习进度07（线性模型、损失函数、优化方法）

摘要：线性模型线性回归应用场景什么是线性回归定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，大于一个自变量情况的叫做多元回归那么怎么理解呢？我们阅读全文

posted @ 2021-01-23 18:01 喜欢爬的孩子阅读(486) 评论(0) 推荐(0)

Python绘制心形图（动态）

摘要：上代码（挺简单的）：可自己修改颜色 from turtle import * setup(500,500) pencolor('pink') fillcolor('red') begin_fill() left(140) forward(111.65) for i in range(200): ri 阅读全文

posted @ 2021-01-23 16:01 喜欢爬的孩子阅读(5673) 评论(0) 推荐(0)

Python发送QQ消息

摘要：向QQ好友发送消息通过Python语句：注意点（提前打开聊天窗口、设置代码暂停时间（不认大量数据由于发送频繁QQ会提示失败））两个代码任选其一 import win32gui import win32con import win32clipboard import time class CSen 阅读全文

posted @ 2021-01-23 15:47 喜欢爬的孩子阅读(3783) 评论(6) 推荐(0)

Python免费发送手机短信，推送消息

摘要：手机端点击发送验证码，请求发送到python端，由python调用第三方平台使用的是榛子云短信http://smsow.zhenzikj.com 的短信接口，下载开发包下载后的SDK只包含一个zhenzismsclient.py文件，直接导入到工程中即可使用。 3. 引入模块 import 阅读全文

posted @ 2021-01-22 14:56 喜欢爬的孩子阅读(2130) 评论(0) 推荐(0)

Anaconda的安装与环境配置以及jupyter的使用

摘要：Anaconda的下载网址： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 在里面选择自己适合的版本下载进行安装: （这里本人两个框框都选择了。这样就不用再自己配置环境变量了）配置环境变量（如果你上边的第一个没有打钩）：主要有三个环阅读全文

posted @ 2021-01-21 21:51 喜欢爬的孩子阅读(969) 评论(0) 推荐(0)

机器学习进度06（朴素贝叶斯算法、决策树、随机森林）

摘要：朴素贝叶斯算法什么是朴素贝叶斯分类方法条件概率与联合概率联合概率：包含多个条件，且所有条件同时成立的概率记作：P(A,B) 特性：P(A, B) = P(A)P(B) 条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率记作：P(A|B) 特性：P(A1,A2|B) = P(A1| 阅读全文

posted @ 2021-01-21 18:54 喜欢爬的孩子阅读(771) 评论(0) 推荐(0)

Python决策树可视化：GraphViz's executables not found的解决方法

摘要：运用Python中决策树算法遇到了安装可视化工具的问题。 1、安装pydotplus 打开Anaconda Prompt，输入pip install pydotplus，回车，successful。出现GraphViz's executables not found报错很有可能是环境变量没添加上或阅读全文

posted @ 2021-01-21 16:14 喜欢爬的孩子阅读(5936) 评论(0) 推荐(0)

机器学习进度05（FaceBook案例）

摘要：Facebook签到位置预测K值调优 #案例facebook def facebook_demo(): data = pd.read_csv("C:/Users/26301/Desktop/train.csv") #缩小数据范围 data = data.query("x<2.5 & x>2 & y< 阅读全文

posted @ 2021-01-20 22:12 喜欢爬的孩子阅读(246) 评论(0) 推荐(0)

机器学习进度04（转换器、预估器、K-近邻算法、模式选择与调优）

摘要：sklearn转化器和预估器转换器：想一下之前做的特征工程的步骤？ 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵，不能同时调用) 我们把特征工程的接口称之为转换器，其中转换器调用有这么几种形式 fit_transf 阅读全文

posted @ 2021-01-20 21:07 喜欢爬的孩子阅读(296) 评论(0) 推荐(1)

机器学习进度03（instacart降维案例、总结）

摘要：案例：探究用户对物品类别的喜好细分降维数据如下： order_products__prior.csv：订单与商品信息字段：order_id, product_id, add_to_cart_order, reordered products.csv：商品信息字段：product_id, pro 阅读全文

posted @ 2021-01-20 14:29 喜欢爬的孩子阅读(494) 评论(0) 推荐(0)

机器学习进度02（数据预处理、降维、低方差特征、相关系数、主成分分析）

摘要：特征预处理：什么是特征预处理？通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。我们需要用到一些方法进行无量纲化，使不同规格的数据转换到同一规格为什么我们要进行归一化/标准化？特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果阅读全文

posted @ 2021-01-19 22:56 喜欢爬的孩子阅读(1568) 评论(0) 推荐(0)

机器学习进度01（sklearn、字典特征抽取、文本特征抽取（CountVectorizer、TfidfVevtorizer）、中文文本特征抽取）

摘要：sklearn数据集 1 scikit-learn数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集，数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集，需要从网络阅读全文

posted @ 2021-01-19 19:07 喜欢爬的孩子阅读(676) 评论(0) 推荐(0)

python生成词云（可更换背景图）

摘要：源码如下： import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator # 打开文件 text_from_file = open('2019n 阅读全文

posted @ 2021-01-19 12:43 喜欢爬的孩子阅读(4841) 评论(0) 推荐(0)

Python爬取淘宝商品信息写入mysql

摘要：直接上代码：（商品名称、单价、图片链接） import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; enc=ooWAQ8HPiB 阅读全文

posted @ 2021-01-19 12:25 喜欢爬的孩子阅读(611) 评论(0) 推荐(0)

windows配置flask&Pycharm运行第一个flask

摘要：一、virtualenv 安装 1、下载distribute_setup.py文件，文件压缩包下载完之后，放在以前安装Python的目录下就行。双击运行文件（双击之后cmd会打开之后闪退，就是安装成功）。运行这个文件：链接：https://pypi.python.org/packages/sou 阅读全文

posted @ 2021-01-18 22:33 喜欢爬的孩子阅读(1312) 评论(0) 推荐(0)

spark学习进度29（structuredStreaming）

摘要：编程模型解释 RDD rdd.flatMap(_.split(" ")) .map((_, 1)) .reduceByKey(_ + _) .collect 针对自定义数据对象进行处理, 可以处理任意类型的对象, 比较符合面向对象 RDD 无法感知到数据的结构, 无法针对数据结构进行编程 DataF 阅读全文

posted @ 2021-01-18 17:01 喜欢爬的孩子阅读(136) 评论(0) 推荐(1)

spark学习进度28（SparkStreaming）

摘要：SparkStreaming Spark Streaming 的特点特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码一个非常重要的特点是, Spark Str 阅读全文

posted @ 2021-01-17 21:55 喜欢爬的孩子阅读(130) 评论(0) 推荐(0)

spark学习进度27（行政区信息、会话统计）

摘要：需求介绍思路整理需求项目的任务是统计出租车在不同行政区的平均等待时间, 所以源数据集和经过计算希望得到的新数据集大致如下源数据集目标数据集目标数据集分析目标数据集中有三列, borough, avg(seconds), stddev_samp(seconds) borough 表示目的阅读全文

posted @ 2021-01-17 14:50 喜欢爬的孩子阅读(225) 评论(0) 推荐(0)

spark学习进度26（spark sql编程初级实践）

摘要：Spark SQL 基本操作：将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , " 阅读全文

posted @ 2021-01-17 13:18 喜欢爬的孩子阅读(897) 评论(0) 推荐(0)

spark学习进度25（SparkCore实战案例）

摘要：词频统计：要求：统计Harry Potter.txt文件中出现最多单词前十位内容样例：代码及结果： @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w 阅读全文

posted @ 2021-01-17 11:22 喜欢爬的孩子阅读(278) 评论(0) 推荐(0)

spark学习进度24（项目分析、工程搭建、数据清洗）

摘要：SparkSQL 练习项目 - 出租车利用率分析数据集结构字段示例示意 hack_license BA96DE419E711691B9445D6A6307C170 执照号, 可以唯一标识一辆出租车 pickup_datetime 2013-01-01 15:11:48 上车时间 dropoff_ 阅读全文

posted @ 2021-01-16 19:44 喜欢爬的孩子阅读(321) 评论(0) 推荐(0)

spark学习进度23（函数）

摘要：函数：聚合每个类别的总价; val spark = SparkSession.builder() .appName("window") .master("local[6]") .getOrCreate() import spark.implicits._ val source = Seq( ("T 阅读全文

posted @ 2021-01-16 13:42 喜欢爬的孩子阅读(188) 评论(0) 推荐(0)

神经网络--Bp神经网络

摘要：学习内容; Bp 神经网络的简单理解首先从名称中可以看出，Bp神经网络可以分为两个部分，bp和神经网络。 bp是 Back Propagation 的简写，意思是反向传播。而神经网络，听着高大上，其实就是一类相对复杂的计算网络。举个简单的例子来说明一下，什么是网络。看这样一个问题，假如我手里有阅读全文

posted @ 2021-01-15 20:32 喜欢爬的孩子阅读(1786) 评论(0) 推荐(0)

spark学习进度22（Scala编程初级实践-2）

摘要：spark-shell 交互式编程：请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示： Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,D 阅读全文

posted @ 2021-01-15 15:29 喜欢爬的孩子阅读(1182) 评论(0) 推荐(0)

软件需求最佳实践-阅读笔记02

摘要：第二章不同软件项目的需求视图 -读后总结：信息系统的需求视图：直到今天，信息系统在软件项目所占的比例也是做高的，因此研究信息系统的本质和分类对于需求工作的开展是尤为重要的。信息系统的本质与分类：信息系统是人和数据、过程和接口的组合，主要体会如下几个要素。支持企业的日常运作、支持解决问题、支持阅读全文

posted @ 2021-01-14 21:53 喜欢爬的孩子阅读(113) 评论(0) 推荐(0)

spark学习进度21（聚合操作、连接操作）

摘要：聚合操作： groupby： // 1. 创建 SparkSession val spark = SparkSession.builder() .master("local[6]") .appName("agg processor") .getOrCreate() import spark.impl 阅读全文

posted @ 2021-01-14 19:35 喜欢爬的孩子阅读(446) 评论(0) 推荐(0)

spark学习进度20（column对象、缺省值处理）

摘要：column对象：分类操作解释创建 ' 单引号 ' 在 Scala 中是一个特殊的符号, 通过 ' 会生成一个 Symbol 对象, Symbol 对象可以理解为是一个字符串的变种, 但是比字符串的效率高很多, 在 Spark 中, 对 Scala 中的 Symbol 对象做了隐式转换, 转换为阅读全文

posted @ 2021-01-14 12:58 喜欢爬的孩子阅读(650) 评论(0) 推荐(0)

spark学习进度19（有类型转换、无类型转换）

摘要：有类型转换： map： @Test def trans(): Unit = { // 3. flatMap val ds1 = Seq("hello spark", "hello hadoop").toDS ds1.flatMap( item => item.split(" ") ).show() 阅读全文

posted @ 2021-01-13 22:15 喜欢爬的孩子阅读(216) 评论(0) 推荐(0)

spark学习进度18（SparkSQL读写）

摘要：初识 DataFrameReader： SparkSQL 的一个非常重要的目标就是完善数据读取, 所以 SparkSQL 中增加了一个新的框架, 专门用于读取外部数据源, 叫做 DataFrameReader @Test def reader1(): Unit = { // 1. 创建 SparkS 阅读全文

posted @ 2021-01-13 20:44 喜欢爬的孩子阅读(561) 评论(0) 推荐(0)

spark学习进度17（Catalyst优化器、dataset介绍、dataframe介绍）

摘要：RDD 和 SparkSQL 运行时的区别 RDD 的运行流程大致运行步骤先将 RDD 解析为由 Stage 组成的 DAG, 后将 Stage 转为 Task 直接运行问题任务会按照代码所示运行, 依赖开发者的优化, 开发者的会在很大程度上影响运行效率解决办法创建一个组件, 帮助开发者阅读全文

posted @ 2021-01-12 14:18 喜欢爬的孩子阅读(331) 评论(0) 推荐(0)

spark学习进度16（Scala编程初级实践）

摘要：一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构； 2.掌握面向对象编程的基础知识，能够编写自定义类和特质； 3.掌握函数式编程的基础知识，能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本层次结构，熟练使用常用的容器类进行数据； 4.熟练掌握 Scala 的 REPL 阅读全文

posted @ 2021-01-12 11:03 喜欢爬的孩子阅读(209) 评论(0) 推荐(0)

spark学习进度15（SparkSQL是什么、初体验）

摘要：数据分析的方式：命令式在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算. 命令式的优点操作粒度更细, 能够控制数据的每一个处理环节操作更明确, 步骤更清晰, 容易维护支持非结构化数据的操作命令式的缺点需要一阅读全文

posted @ 2021-01-11 23:01 喜欢爬的孩子阅读(131) 评论(0) 推荐(0)

软件需求最佳实践-阅读笔记01

摘要：最近看的是第一章：需求实践现状分析：失败的根源： “在中国做软件太难了，客户连自己的需求都说不清楚”。这句话经常在我们耳边响起。但是正所谓：“它山之石可以攻玉”。在做项目的时候，很多项目都是进度超期、成本超支。最主要的原因之一就是项目的重新启动，在Standish Group总结的十大成功保证阅读全文

posted @ 2021-01-11 20:46 喜欢爬的孩子阅读(126) 评论(0) 推荐(0)

spark学习进度14（spark逻辑图和物理图和运行过程）

摘要：逻辑图：表达的是什么：逻辑图就是数据处理和存储的过程表达什么是RDD之间的依赖关系：什么是关系(依赖关系) ? 从算子视角上来看, splitRDD 通过 map 算子得到了 tupleRDD, 所以 splitRDD 和 tupleRDD 之间的关系是 map 但是仅仅这样说, 会不够全面阅读全文

posted @ 2021-01-11 17:07 喜欢爬的孩子阅读(298) 评论(0) 推荐(0)

spark学习进度13（spark总体介绍）

摘要：这一节基本上全是概念：：：更新的几种写法：部署：逻辑：其实 RDD 并没有什么严格的逻辑执行图和物理执行图的概念, 这里也只是借用这个概念, 从而让整个 RDD 的原理可以解释, 好理解. 对于 RDD 的逻辑执行图, 起始于第一个入口 RDD 的创建, 结束于 Action 算子执行之前, 阅读全文

posted @ 2021-01-11 13:45 喜欢爬的孩子阅读(125) 评论(0) 推荐(0)

spark学习进度12（RDD的Checkpoint）

摘要：1. Checkpoint 目标 Checkpoint 的作用 Checkpoint 的使用、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斩断 RDD 的依赖链, 并且将数据存储在可靠的存储引擎中, 例如支持分布式存储和副本机制的 HDFS. Checkpoint 阅读全文

posted @ 2021-01-11 12:42 喜欢爬的孩子阅读(158) 评论(0) 推荐(0)

spark学习进度11（RDD分区和我shuffle以及缓存）

摘要：一、RDD的分区和Shuffle 目标 RDD 的分区操作 Shuffle 的原理分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassan 阅读全文

posted @ 2021-01-10 20:50 喜欢爬的孩子阅读(300) 评论(0) 推荐(0)

spark学习进度10（阶段练习）

摘要：阶段练习一、看看数据集格式二、明确需求三、明确步骤 1、读取文件 2、抽取需要的列 3、以年月为基础，进行reduceByKey统计东四地区的PM 4、排序 5、获取结果四、编码 1、拷贝数据集 2、创建类 3、编写代码 4、运行测试 @Test def reduce():Unit={ // 阅读全文

posted @ 2021-01-10 12:32 喜欢爬的孩子阅读(115) 评论(0) 推荐(0)

spark学习进度09（RDD算子-action-针对KV类型的数据-针对数字类型的数据）

摘要：（所有转换操作的算子都是惰性的，在执行的时候。并不会真的去调度运行，求得结果。而是是生成对应的RDD，只有在Action操作的时候，才会真的运行求得结果）一、Action操作： 1、collect（并不能适应所有的场景） 2、reduce 作用对整个结果集规约, 最终生成一条数据, 是整个数据集阅读全文

posted @ 2021-01-10 10:58 喜欢爬的孩子阅读(283) 评论(0) 推荐(0)

spark学习进度08（RDD算子-转换）

摘要：一、转换操作： 1、mapPartitions的相关操作 @Test def mapPartitions():Unit={ //1、数据生成 //2、算子使用 //3、获取结果 sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitions(iter=>{ ite 阅读全文

posted @ 2021-01-09 23:50 喜欢爬的孩子阅读(199) 评论(0) 推荐(0)

spark学习进度07（深入了解RDD）

摘要：一、案例： 1、明确需求：在访问日志中，统计独立ip数量TOP10 2、查看数据结构： ip：是时间戳Http Method Url..... 3、明确编码步骤： 3.1 取出ip，生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 阅读全文

posted @ 2021-01-08 22:14 喜欢爬的孩子阅读(291) 评论(0) 推荐(0)

spark学习进度06（RDD的Map算子、FlatMap算子、ReduceByKey算子）

摘要：一、Map算子：作用把 RDD 中的数据一对一的转为另一种形式调用 def map[U: ClassTag](f: T ⇒ U): RDD[U] 参数 f → Map 算子是原RDD → 新RDD 的过程, 这个函数的参数是原 RDD 数据, 返回值是经过函数转换的新 RDD 的数据注阅读全文

posted @ 2021-01-08 20:27 喜欢爬的孩子阅读(520) 评论(0) 推荐(0)

spark学习进度05（RDD概念、代码、三种创建方式）

摘要：一、RDD概念 1、RDD在哪里： 2、RDD是什么：是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区.RDD 作为数据结构, 本质上是一个只读的分区记录集合. 一个 RDD 可以包含多个分区, 每个分区就是一个 DataSet 片段.RDD 之间可阅读全文

posted @ 2021-01-08 19:31 喜欢爬的孩子阅读(346) 评论(0) 推荐(0)

spark学习进度04（独立应用的两种形式）

摘要：1、独立应用的形式（上线、放在集群中运行） 1.1本地运行的方式 idea创建web项目添加scala和maven依赖。配置pom文件： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/ 阅读全文

posted @ 2021-01-08 15:02 喜欢爬的孩子阅读(141) 评论(0) 推荐(0)

scala配置、idea运行第一个scala程序

摘要：一、下载相应的sdk进行变量配置： ScalaSDK下载地址：http://www.scala-lang.org/download/ idea下载地址：https://www.jetbrains.com/idea/ 根据解压的路径配置环境变量和系统变量。之后再配置环境变量就好了（双击系统变量中的p 阅读全文

posted @ 2021-01-08 10:59 喜欢爬的孩子阅读(1073) 评论(0) 推荐(0)

spark学习进度03（入门案例、sparkshell本地文件读取，hdfs读取、本地运行、提交运行）

摘要：一、编写spark代码的几种方式：（主要看重的方面：1、观察数据集 2、编写代码测试数据集 3、固化代码、提交集群运行上线） 1、spark-shell （数据集的探索、测试） Spark shell 简介启动 Spark shell进入 Spark 安装目录后执行 spark-shell -- 阅读全文

posted @ 2021-01-08 10:29 喜欢爬的孩子阅读(820) 评论(0) 推荐(0)

spark-shell报错java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException:

摘要：阅读全文

posted @ 2021-01-07 22:23 喜欢爬的孩子阅读(721) 评论(0) 推荐(0)

spark学习进度02（集群搭建——第一个案例）

摘要：第一步：第二步：第三步：运行结果如下： spark比较擅长做迭代的操作的相关计算。阅读全文

posted @ 2021-01-07 20:49 喜欢爬的孩子阅读(81) 评论(0) 推荐(0)

spark学习进度01（安装环境搭建集群搭建）

摘要：1、spark的相关特点速度快、易用、通用、兼容速度快::+--* Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍* 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍* Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存阅读全文

posted @ 2021-01-07 20:20 喜欢爬的孩子阅读(111) 评论(0) 推荐(0)

Hive的交互方式

摘要：1、第一种交互方式：（bin/hive）启动会有一些慢类似于mysql的终端查看有哪些数据库创建数据库操作在数据库中创建表查看表 2、第二种交互方式：（使用sql语句或者sql脚本进行交互） 2.1不进入hive的客户端直接执行hive的hql语句 2.2将hql语句写成一个sql脚本然阅读全文

posted @ 2021-01-06 19:01 喜欢爬的孩子阅读(130) 评论(0) 推荐(0)

悄悄成长

01 2021 档案

公告