随笔分类 - 大数据技术
摘要:一、Http协议 二、Https协议 三、使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求 四、爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movie.douban.com/j/search_tags?type=movie会得到显示的电影的分类标签
阅读全文
摘要:一、WebCollector介绍 WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在
阅读全文
摘要:大数据分析应用系统的完整开发过程分为数据采集、数据存储、数据计算和数据分析和展示四个部分。 数据采集:WebCollector框架 数据存储:SQL 数据计算: 数据分析和展示:Java EE 流程就是:在Windows上使用WebCollector数据采集模块来采集数据并得到Windows下面的
阅读全文
摘要:二、ALS的应用设计 1.输入数据 (1)评分文件(rating.dat) 该数据有四个字段,格式为UserID::MovieID::Rating::Timestamp,分别为用户编号、电影编号、评分、评分时间戳。 其中,用户编号范围(1~6040)、电影编号(1~3952)、电影评分(0~5)、评
阅读全文
摘要:一、数据预处理 1.查看数据 将要用到的sogou.500w.utf8包含了500万条搜狗网络访问日志记录的数据的文件(547MB)复制到/home/jun/Resources下,通过less命令查看文件内容,通过PgUp/PgDn上下翻页,退出时可以按ESC-Enter-Q即可。 这个文件每一条记
阅读全文
摘要:一、分布式估算圆周率 1.计算原理 假设正方形的面积S等于x²,而正方形的内切圆的面积C等于Pi×(x/2)²,因此圆面积与正方形面积之比C/S就为Pi/4,于是就有Pi=4×C/S。 可以利用计算机随机产生大量位于正方形内部的点,通过点的数量去近似表示面积。假设位于正方形中点的数量为Ps,落在圆内
阅读全文
摘要:Spark通常采用Scala语言进行开发,而IDEA是最佳的Scala语言开发环境 1.https://www.jetbrains.com/idea/download/#section=linux下载ideaIC-2018.1.6.tar.gz然后复制到Master下的/home/jun下并解压,执
阅读全文
摘要:一、Scala安装 1.https://www.scala-lang.org/download/2.11.12.html下载并复制到/home/jun下解压 2.启动Scala并使用Scala Shell 3.将Scala安装包复制到slave节点 二、Spark集群的安装与配置 采用Hadoop
阅读全文
摘要:一、Kafka的下载与解压 http://kafka.apache.org/downloads.html下载kafka_2.11-1.1.1.tgz.gz并解压到/home/jun下 二、配置Kafka集群 1.在Master节点上的配置 配置server.properties (1)在Server
阅读全文
摘要:Sqoop是一个用来完成Hadoop和关系型数据库中的数据相互转移的工具,它可以将关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。 Kafka是一个开源的分布式消息订阅系统 一、Sqoop的安装 1.http://www-eu.apache.org/d
阅读全文
摘要:一、Zookeeper的安装 1.http://www-us.apache.org/dist/zookeeper/stable/下载Zookeeper安装包,并将zookeeper-3.4.12.tar.gz复制到/home/jun下并解压 2.使用gedit编辑zoo.cfg配置文件 将下面的配置
阅读全文
摘要:一、MySQL安装 CenOS7使用MariaDB替代了默认的MySQL。MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区维护,采用GPL授权许可。MariaDB完全兼容MySQL,包括API和命令行。 1.下载MySQL:https://dev.mysql.com/downloa
阅读全文
摘要:一、Eclipse的安装与设置 1.在Eclipse官网上下载eclipse-jee-oxygen-3a-linux-gtk-x86_64.tar.gz文件并将其拷贝到/home/jun/Resources下,然后再将文件拷贝到/home/jun下并解压。 2.执行.eclipse程序即可启动ecl
阅读全文
摘要:一、HDFS基本命令 1.创建目录:-mkdir 2.查看文件列表:-ls 3.上传文件到HDFS 在/home/jun下新建两个文件jun.dat和jun.txt (1)使用-put将文件从本地复制到HDFS集群 (2)使用-copyFromLocal将文件从本地复制到HDFS集群 (3)查看是否
阅读全文
摘要:1.虚拟机克隆 在VM界面点击查看-自定义-库,然后在左边我的计算机下右键点击安装好的第一个系统,然后管理-克隆,选择克隆系统所在的文件路径即可。 2.三台主机名字修改 root用户下: (1)编辑network配置文件 (2)在配置文件中增加如下配置,保存退出 (3)输入hostname mast
阅读全文
摘要:一、Hadoop框架 1.HDFS(分布式文件系统) 2.MapReduce(分布式计算框架) 3.YARN(集群资源管理器) 4.Zookeeper(分布式协作服务) 5.Ambari(管理工具) 二、Spark(内存计算框架) 1.Scala 2.Spark SQL 3.Spark Stream
阅读全文

浙公网安备 33010602011771号