摘要:Spark的39个机器学习库 Apache Spark itself 1. MLlib AMPLab Spark originally came out of Berkeley AMPLab and even today AMPLab projects, even though they are n
阅读全文
随笔分类 - spark
摘要:RDD中cache和persist的区别 通过观察RDD.scala源代码即可知道cache和persist的区别: def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE &&
阅读全文
摘要:使用SGD算法逻辑回归的垃圾邮件分类器 package com.oreilly.learningsparkexamples.scala import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.cl
阅读全文
摘要:干货 | Flink及主流流框架比较 干货 | Flink及主流流框架比较 IT刊 百家号17-05-2220:16 IT刊 百家号17-05-2220:16 IT刊 百家号17-05-2220:16 引言 随着大数据时代的来临,大数据产品层出不穷。我们最近也对一款业内非常火的大数据产品 - Apa
阅读全文
摘要:大数据等最核心的关键技术:32个算法 奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投
阅读全文
摘要:常见的七种Hadoop和Spark项目案例 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇
阅读全文
摘要:流失预测模型的应用 一、概述 对于一个互联网企业来说,用户流失是一个不可避免的问题。一定范围内的用户流失率是可以被接受的,因为并不是所有的用户都是我们的目标用户。但是当用户的流失率超出我们的预期时,就应该思考用户为什么会离开?有没有办法预测出具有流失倾向的用户?并通过针对性的挽留工作避免其流失。 本
阅读全文
摘要:基于Spark ALS构建商品推荐引擎 一般来讲,推荐引擎试图对用户与某类物品之间的联系建模,其想法是预测人们可能喜好的物品并通过探索物品之间的联系来辅助这个过程,让用户能更快速、更准确的获得所需要的信息,提升用户的体验、参与度以及物品对用户的吸引力。 在开始之前,先了解一下推荐模型的分类: 1、基
阅读全文
摘要:百分点是一个推荐服务的提供商,但是已经转型为大数据解决方案的提供商。 首先看一下大数据与应用画像的关系,现在大数据是炙手可热的,大数据的4个V都比较了解,大数据应该说是信息技术的自然延伸,意味的无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT时代,it系统围绕这业务服务,在这个服务的过
阅读全文
摘要:用户画像的具体应用包括售前的精准营销,售中的个性化推荐以及售后的增值服务等。用户的标签纬度和应用是相互相城的关系,一面可以根据现有的标签纬度开发应用,另一方面可以通过应用需求扩展维度,两者互相促进。 我们在这里举的列子分为3类,第一类是售前的精准营销,比如电商客户和企业客户,需要经过精准营销,把站外
阅读全文
摘要:1 booststraping:意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。 其核心思想和基本步骤如下: (1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2)根据抽出的样本计
阅读全文
摘要:scala资料总结,一些小技巧 1、得到每种数据类型所表示的范围 Short.MaxValue 32767 Short.MinValue -32768 Int.MaxValue 2147483647 Int.MinValue -2147483648 Double.MaxValue 1.7976931
阅读全文
摘要:神经网络编程入门 本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。 第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikiped
阅读全文
摘要:RBF神经网络通用函数 newrb, newrbe 1、newrb 其中P为输入向量,T为输出向量,GOAL为均方误差的目标,SPREED为径向基的扩展速度。返回值是一个构建好的网络,用newrb()创建的RBF网络是一个不断尝试的过程,在创建中不断的增加中间层的数量和神经元的数目,直到满足输出的误
阅读全文
摘要:机器学习-RBF高斯核函数处理 SVM高斯核函数-RBF优化 重要了解数学的部分: 协方差矩阵,高斯核函数公式。 个人建议具体的求法还是看下面的核心代码吧,更好理解,反正就我个人而言,烦躁的公式,还不如一段代码来的实际。本来想用Java的一个叫jblas的矩阵包,但是想了想,还是自己动手写一下吧。加
阅读全文
摘要:径向基神经网络 径向基神经网络 1、径向基函数 (Radial Basis Function,RBF) 神经网络是一种性能良好的前向网络,具有最佳逼近、训练简洁、学习收敛速度快以及克服局部最小值问题的性能,目前已经证明径向基网络能够以任意精度逼近任意连续的函数。因此它已经被广泛应用于模式识别、非线性
阅读全文
摘要:31页PPT:基于Spark的移动大数据挖掘 31页PPT:基于Spark的移动大数据挖掘 数盟11.16 Data Science Meetup(DSM北京)分享:基于Spark的移动大数据挖掘分享嘉宾:张夏天(TalkingData首席数据科学家) @张夏天_机器学习 内容提要: Talking
阅读全文
摘要:教你如何成为Spark大数据高手? 教你如何成为Spark大数据高手? Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。 Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足
阅读全文
摘要:新手福利:Apache Spark入门攻略 新手福利:Apache Spark入门攻略 作者Ashwini Kuntamukkala 出处:CSDN 本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。 一、
阅读全文
摘要:网易大数据平台的Spark技术实践 网易大数据平台的Spark技术实践 作者 王健宗 网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析
阅读全文
浙公网安备 33010602011771号