随笔分类 -  大数据

[转]Spark学习之路 (三)Spark之RDD
摘要:Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录 一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件 阅读全文
posted @ 2018-09-13 07:24 陈峰 阅读(257) 评论(0) 推荐(0)
[转]HBASE 二级索引
摘要:1.二级索引的核心思想是什么?2.二级索引由谁来管理?3.在主表中插入某条数据后,hbase如何将索引列写到索引表中去?4.scan查询的时候,coprocessor钩子的作用是什么?5.在split的时候,索引表在什么时候对数据划分?本文是以华为二级索引为例: 华为在HBTC 2012上由其高级技 阅读全文
posted @ 2018-05-26 10:12 陈峰 阅读(2530) 评论(0) 推荐(0)
[转]斗鱼大数据搭建的经验和坑
摘要:https://www.jianshu.com/p/c221bc39a576 上周一,来自武汉的直播平台的大数据架构,作为一个在 2 年多时间里崛起的公司,其流量经历了从 0 到 PB 级别的飞跃。 刚好今年 3月,斗鱼的大数据团队负责人参加过简寻主办的首届武汉开发者峰会,分享了一些经验和坑,结合一 阅读全文
posted @ 2018-05-21 13:10 陈峰 阅读(2618) 评论(0) 推荐(0)
[转]携程大数据实践:高并发应用架构及推荐系统案例
摘要:本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程的大数据团 阅读全文
posted @ 2018-05-21 12:37 陈峰 阅读(2291) 评论(0) 推荐(0)
推荐系统-0X-电影推荐与结果评估
摘要:``` scala import spark.sql import org.apache.spark.sql.types._ import org.apache.spark.mllib.recommendation.ALS import org.apache.spark.mllib.recommendation.MatrixFactorizationModel import org.apache.... 阅读全文
posted @ 2018-05-14 21:40 陈峰 阅读(603) 评论(0) 推荐(0)
大数据-12-Spark+Kafka构建实时分析Dashboard
摘要:转自 http://dblab.xmu.edu.cn/post/8274/ 0.案例概述 本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现,案例的整体 阅读全文
posted @ 2018-05-10 21:31 陈峰 阅读(7534) 评论(5) 推荐(0)
大数据-08-Sqoop入门
摘要:简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据 阅读全文
posted @ 2018-05-10 21:30 陈峰 阅读(204) 评论(0) 推荐(0)
大数据-09-Intellij idea 开发java程序操作HDFS
摘要:主要摘自 http://dblab.xmu.edu.cn/blog/290 2/ 简介 本指南介绍Hadoop分布式文件系统HDFS,并详细指引读者对HDFS文件系统的操作实践。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件 阅读全文
posted @ 2018-05-10 21:30 陈峰 阅读(4123) 评论(0) 推荐(1)
大数据-10-Spark入门之支持向量机SVM分类器
摘要:简介 支持向量机SVM是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机学习方法包含3种模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机;当训练数据近似线性可分时,通过软间隔 阅读全文
posted @ 2018-05-10 21:30 陈峰 阅读(956) 评论(0) 推荐(0)
大数据-11-案例演习-淘宝双11数据分析与预测
摘要:主要摘自 http://dblab.xmu.edu.cn/post/8116/ 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种 阅读全文
posted @ 2018-05-10 21:30 陈峰 阅读(6934) 评论(1) 推荐(0)
大数据-07-Spark之流数据
摘要:摘自 http://dblab.xmu.edu.cn/blog/1084 2/ 简介 DStream是Spark Streaming的编程模型,DStream的操作包括输入、转换和输出。 Spark Streaming工作原理 ,在Spark中,一个应用(Application)由一个任务控制节点( 阅读全文
posted @ 2018-05-10 21:29 陈峰 阅读(1086) 评论(0) 推荐(0)
大数据-06-Spark之读写Hive数据
摘要:简介 Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行。 而HBase表是物理表,适合存放非结 阅读全文
posted @ 2018-04-20 13:14 陈峰 阅读(13867) 评论(0) 推荐(1)
大数据-05-Spark之读写HBase数据
摘要:本文主要来自于 http://dblab.xmu.edu.cn/blog/1316 2/ 谢谢原作者 准备工作一:创建一个HBase表 这里依然是以student表为例进行演示。这里假设你已经成功安装了HBase数据库,如果你还没有安装,可以参考[大数据 04 Hbase入门][1],进行安装,安装 阅读全文
posted @ 2018-04-19 22:04 陈峰 阅读(4931) 评论(0) 推荐(0)
大数据-04-Hbase入门
摘要:本文主要来自于 http://dblab.xmu.edu.cn/blog/install hbase/ 谢谢原作者 本指南介绍了HBase,并详细指引读者安装HBase. 前面第二章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop。相关安装可以查看“[大数据 01 安装Hadoo 阅读全文
posted @ 2018-04-19 20:45 陈峰 阅读(533) 评论(0) 推荐(0)
大数据-03-Spark入门
摘要:Spark 简介 行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个简单的编程模型(MapReduce)。这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度。 Hadoop只是实现Spark的方法之一。Spark以两种方式使用Hadoop 阅读全文
posted @ 2018-04-18 20:50 陈峰 阅读(662) 评论(0) 推荐(0)
大数据-02-Scala入门
摘要:Scala 简介 它是一门基于JVM的面向函数和面向对象的编程语言, 它包含了求值表达式,闭包,切片操作,模式匹配,隐式转换等特性。 可变量/不可变量 可变集合/不可变集合、集合操作 函数 值函数 求值表达式 函数柯里化 偏部分应用函数 偏函数 闭包 类(封装、继承、多态) 特质 单例类 伴生单例 阅读全文
posted @ 2018-04-16 20:11 陈峰 阅读(360) 评论(0) 推荐(0)
大数据-01-安装Hadoop
摘要:环境 服务器:ubuntu 16.04.3 desktop amd64.iso 创建hadoop用户 本文中会大量使用到sudo命令。sudo是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时,就需要输入您当前用户的密码. 接着使 阅读全文
posted @ 2018-04-15 20:33 陈峰 阅读(741) 评论(0) 推荐(0)