摘要: 注意点:安装Spark前先要配置好Scala运行环境。Spark和Scala需要在各个机器上配置。环境变量配置在~/.bashrc中添加如下的配置信息。#scala confexport SCALA_HOME=/usr/local/src/scala-2.1... 阅读全文
posted @ 2018-09-11 21:14 卅先生 阅读(212) 评论(0) 推荐(0)
摘要: 注意点:在启动Hive 的时候要先启动Hadoop和MySQL服务。Mysql 和 Hive 搭建在 yan00机器上。part1:MySQL配置相关安装和配置相关命令:Yum install mysqlYum install mysql-server/e... 阅读全文
posted @ 2018-09-11 21:08 卅先生 阅读(407) 评论(0) 推荐(0)
摘要: hadoop 配置要点 软件 版本 java 1.8.0_151 hadoop 2.6.1part1 $HADOOP_HOME/etc/hadoop 目录下配置参数。slaves 配置从节点 yarn01,yarn02。 core-site.xm... 阅读全文
posted @ 2018-09-11 21:05 卅先生 阅读(133) 评论(0) 推荐(0)
摘要: 集群架构系统虚拟机软件Linux环境虚拟机台数集群主机名64位 WIN7 旗舰版VMware WorkstationCentOS-6.5-x86_643yarn00/yarn01/yarn02part1 Linux虚拟机搭建安装VMWare安装CentOS配... 阅读全文
posted @ 2018-09-11 21:00 卅先生 阅读(126) 评论(0) 推荐(0)
摘要: part1:冒泡排序冒泡排序的核心:一步一步交换相邻位置的数据!代码示例for 循环实现。def bubble_sort1(arr): # 交换的细节 def swap(i,j): arr[i],arr[j]=arr[j],arr[... 阅读全文
posted @ 2018-09-11 17:37 卅先生 阅读(138) 评论(0) 推荐(0)
摘要: 简介堆排序是一种不稳定的排序算法。堆排序的时间复杂度为O(NlogN)。堆排序有两种实现方式。基于递归函数的实现,其额外空间复杂度为O(logN);非递归实现的额外空间复杂度为O(1)。这里讨论的是非递归的实现方式。堆分为大根堆和小根堆,是完全二叉树。对于完... 阅读全文
posted @ 2018-09-11 17:28 卅先生 阅读(175) 评论(0) 推荐(0)
摘要: 入坑机器学习有一定的门槛,不要怕!让老司机用一张图来告诉你如何进行机器学习。正文实验案例:房价预测步骤总结如下:导入需要的Python依赖库。两个重要的库:Numpy、Pandas。导入数据集(Data sets)。处理缺失数据(Missing data)和... 阅读全文
posted @ 2018-09-11 17:20 卅先生 阅读(280) 评论(0) 推荐(0)
摘要: 这是机器学习入门教程系列的第三部分,点击这里跳转到第一部分,点击这里跳转到第二部分。part6通过前面的学习,我们掌握了用已有数据对目标进行预测的方法。在使用模型的时候,有些人或许会好奇,模型究竟是怎样的?这里我们通过一个独特的视角——部分依赖图(Parti... 阅读全文
posted @ 2018-09-11 17:16 卅先生 阅读(219) 评论(0) 推荐(0)
摘要: 这是机器学习入门教程系列的第二部分,点击这里跳转到第一部分,有英文阅读能力的人点这里。part4让我们回到数据部分。一份数据,理想的状况是能直接拿来用。现实中往往不是这样,需要我们先对原始数据进行处理。这里我们这里讨论了一种情况:对缺失值的处理方式。处理缺失... 阅读全文
posted @ 2018-09-11 17:14 卅先生 阅读(173) 评论(0) 推荐(0)
摘要: 阅读此文,需要有python基础,有英文阅读能力的人点这里。part1这里不回答机器学习是什么,能做什么,只告诉你如何快速上手。熟悉你手中的数据。1.常用模块导入命令import pandas as pd2.文件导入命令FILE_PATH=".CSV后缀文件... 阅读全文
posted @ 2018-09-11 16:55 卅先生 阅读(298) 评论(0) 推荐(0)