2018 年 9月 11 日随笔档案 - 卅先生

摘要：注意点：安装Spark前先要配置好Scala运行环境。Spark和Scala需要在各个机器上配置。环境变量配置在~/.bashrc中添加如下的配置信息。#scala confexport SCALA_HOME=/usr/local/src/scala-2.1... 阅读全文

posted @ 2018-09-11 21:14 卅先生阅读(215) 评论(0) 推荐(0)

摘要：注意点：在启动Hive 的时候要先启动Hadoop和MySQL服务。Mysql 和 Hive 搭建在 yan00机器上。part1：MySQL配置相关安装和配置相关命令：Yum install mysqlYum install mysql-server/e... 阅读全文

posted @ 2018-09-11 21:08 卅先生阅读(409) 评论(0) 推荐(0)

摘要： hadoop 配置要点软件版本 java 1.8.0_151 hadoop 2.6.1part1 $HADOOP_HOME/etc/hadoop 目录下配置参数。slaves 配置从节点 yarn01，yarn02。 core-site.xm... 阅读全文

posted @ 2018-09-11 21:05 卅先生阅读(135) 评论(0) 推荐(0)

摘要：集群架构系统虚拟机软件Linux环境虚拟机台数集群主机名64位 WIN7 旗舰版VMware WorkstationCentOS-6.5-x86_643yarn00/yarn01/yarn02part1 Linux虚拟机搭建安装VMWare安装CentOS配... 阅读全文

posted @ 2018-09-11 21:00 卅先生阅读(130) 评论(0) 推荐(0)

摘要： part1：冒泡排序冒泡排序的核心：一步一步交换相邻位置的数据！代码示例for 循环实现。def bubble_sort1(arr): # 交换的细节 def swap(i,j): arr[i],arr[j]=arr[j],arr[... 阅读全文

posted @ 2018-09-11 17:37 卅先生阅读(141) 评论(0) 推荐(0)

摘要：简介堆排序是一种不稳定的排序算法。堆排序的时间复杂度为O(NlogN)。堆排序有两种实现方式。基于递归函数的实现，其额外空间复杂度为O(logN)；非递归实现的额外空间复杂度为O(1)。这里讨论的是非递归的实现方式。堆分为大根堆和小根堆，是完全二叉树。对于完... 阅读全文

posted @ 2018-09-11 17:28 卅先生阅读(181) 评论(0) 推荐(0)

摘要：入坑机器学习有一定的门槛，不要怕！让老司机用一张图来告诉你如何进行机器学习。正文实验案例：房价预测步骤总结如下：导入需要的Python依赖库。两个重要的库：Numpy、Pandas。导入数据集（Data sets）。处理缺失数据（Missing data）和... 阅读全文

posted @ 2018-09-11 17:20 卅先生阅读(282) 评论(0) 推荐(0)

摘要：这是机器学习入门教程系列的第三部分，点击这里跳转到第一部分，点击这里跳转到第二部分。part6通过前面的学习，我们掌握了用已有数据对目标进行预测的方法。在使用模型的时候，有些人或许会好奇，模型究竟是怎样的？这里我们通过一个独特的视角——部分依赖图（Parti... 阅读全文

posted @ 2018-09-11 17:16 卅先生阅读(222) 评论(0) 推荐(0)

摘要：这是机器学习入门教程系列的第二部分，点击这里跳转到第一部分，有英文阅读能力的人点这里。part4让我们回到数据部分。一份数据，理想的状况是能直接拿来用。现实中往往不是这样，需要我们先对原始数据进行处理。这里我们这里讨论了一种情况：对缺失值的处理方式。处理缺失... 阅读全文

posted @ 2018-09-11 17:14 卅先生阅读(174) 评论(0) 推荐(0)

摘要：阅读此文，需要有python基础，有英文阅读能力的人点这里。part1这里不回答机器学习是什么，能做什么，只告诉你如何快速上手。熟悉你手中的数据。1.常用模块导入命令import pandas as pd2.文件导入命令FILE_PATH=".CSV后缀文件... 阅读全文

posted @ 2018-09-11 16:55 卅先生阅读(304) 评论(0) 推荐(0)

入微者说