摘要:
https://www.jianshu.com/p/c221bc39a576 上周一,来自武汉的直播平台的大数据架构,作为一个在 2 年多时间里崛起的公司,其流量经历了从 0 到 PB 级别的飞跃。 刚好今年 3月,斗鱼的大数据团队负责人参加过简寻主办的首届武汉开发者峰会,分享了一些经验和坑,结合一
阅读全文
posted @ 2018-05-21 13:10
陈峰
阅读(2618)
推荐(0)
摘要:
本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程的大数据团
阅读全文
posted @ 2018-05-21 12:37
陈峰
阅读(2291)
推荐(0)
摘要:
分治思想 DevideConquer(P){ if(|P|
阅读全文
posted @ 2018-05-19 12:04
陈峰
阅读(201)
推荐(0)
摘要:
Lambda 架构 Lambda 架构由Storm的作者Nathan Marz提出,其设计目的在于提供一个能满足大数据系统关键特性的架构,包括高容错、低延迟、可扩展等。其整合离线计算与实时计算,融合不可变性、读写分离和复杂性隔离等原则,可集成Hadoop, Kafka, Spark,Storm等各类
阅读全文
posted @ 2018-05-16 21:39
陈峰
阅读(3245)
推荐(0)
摘要:
一、新建scala项目 二、构造程序 代码如下 导入引用库 三、打包部署 程序运行时,需要指定输入数据路径,数据包含了ratings.dat和movies.dat,数据都包含在了一个数据包。[点击下载][1], 然后解压。 配置运行参数 点击edit configuration,在左侧点击该项目。在
阅读全文
posted @ 2018-05-16 18:57
陈峰
阅读(1823)
推荐(0)
摘要:
下面简单通过在测试集上验证错误值 (JAVA) 以下是通过信息检索, 进行多维度的评价模型的优劣度(java)
阅读全文
posted @ 2018-05-16 18:48
陈峰
阅读(253)
推荐(0)
摘要:
下面是一个基本的JVAVA程序, RecommenderIntro.java 下面是基于物品的多线程批推荐 ` package xyz.pl8.userrecommendermovielens; import org.apache.commons.io.Charsets; import org.ap
阅读全文
posted @ 2018-05-16 18:35
陈峰
阅读(1036)
推荐(0)
摘要:
前题 要做推荐系统的前题,就是要信息出现过载, 即如何从成千上万的物品中,选出最合适的物品供用户参考。 如果可供选择的基数仅有几个, 就不需要推荐系统了, 直接把所有选项提供给用户就行了。 推荐技术 基于内容推荐 基于内容相似度的进行推荐,顾名思义,把与你 喜欢的内容 和 相似内容 推荐给你。怎么来
阅读全文
posted @ 2018-05-16 18:26
陈峰
阅读(337)
推荐(0)
摘要:
``` scala import spark.sql import org.apache.spark.sql.types._ import org.apache.spark.mllib.recommendation.ALS import org.apache.spark.mllib.recommendation.MatrixFactorizationModel import org.apache....
阅读全文
posted @ 2018-05-14 21:40
陈峰
阅读(603)
推荐(0)
摘要:
``` scala
import org.apache.spark.ml.feature._
import org.apache.spark.ml.param.ParamMap
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.{Pipeline,PipelineModel...
阅读全文
posted @ 2018-05-11 19:20
陈峰
阅读(914)
推荐(0)
摘要:
``` html 菜鸟教程在线编辑器 实例 - 基本的表格 实例 - 基本的表格 实例 - 基本的表格 实例 - 基本的表格 实例 - 基本的表格 实例 - 基本的表格 实例 - 基本的表格 实例 - 基本的表格 实例 - 基本的表格 实例...
阅读全文
posted @ 2018-05-11 11:01
陈峰
阅读(531)
推荐(0)
摘要:
转自 http://dblab.xmu.edu.cn/post/8274/ 0.案例概述 本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现,案例的整体
阅读全文
posted @ 2018-05-10 21:31
陈峰
阅读(7534)
推荐(0)
摘要:
简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据
阅读全文
posted @ 2018-05-10 21:30
陈峰
阅读(205)
推荐(0)
摘要:
主要摘自 http://dblab.xmu.edu.cn/blog/290 2/ 简介 本指南介绍Hadoop分布式文件系统HDFS,并详细指引读者对HDFS文件系统的操作实践。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件
阅读全文
posted @ 2018-05-10 21:30
陈峰
阅读(4123)
推荐(1)
摘要:
简介 支持向量机SVM是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机学习方法包含3种模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机;当训练数据近似线性可分时,通过软间隔
阅读全文
posted @ 2018-05-10 21:30
陈峰
阅读(956)
推荐(0)
摘要:
主要摘自 http://dblab.xmu.edu.cn/post/8116/ 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种
阅读全文
posted @ 2018-05-10 21:30
陈峰
阅读(6934)
推荐(0)
摘要:
摘自 http://dblab.xmu.edu.cn/blog/1084 2/ 简介 DStream是Spark Streaming的编程模型,DStream的操作包括输入、转换和输出。 Spark Streaming工作原理 ,在Spark中,一个应用(Application)由一个任务控制节点(
阅读全文
posted @ 2018-05-10 21:29
陈峰
阅读(1086)
推荐(0)
摘要:
准确率(正确率, accuracy),精确度(precision), 召回率(recall) 都是计算正条件值 (Condition positive, 正样本). 查准率(Precision)查准率反映了被判定为正例中真正的正例样本的比重 查全率(Recall)查全率反映了被判定的正例占总的正例的
阅读全文
posted @ 2018-05-10 19:52
陈峰
阅读(10756)
推荐(0)
摘要:
https://www.cnblogs.com/ityouknow/p/6931958.html springcloud(九):配置中心和消息总线(配置中心终结版) 我们在springcloud(七):配置中心svn示例和refresh中讲到,如果需要客户端获取到最新的配置信息需要执行refresh
阅读全文
posted @ 2018-05-10 08:57
陈峰
阅读(214)
推荐(0)
摘要:
https://blog.csdn.net/hzw19920329/article/details/53156015 1.Windows下安装RabbitMQ需要以下几个步骤 (1):下载erlang,原因在于RabbitMQ服务端代码是使用并发式语言erlang编写的,下载地址:http://ww
阅读全文
posted @ 2018-05-09 22:17
陈峰
阅读(175)
推荐(0)