摘要:
启动Hadoop 进入HADOOP_HOME目录。执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /use 阅读全文
posted @ 2018-11-22 10:22
鱼&渔
阅读(87)
评论(0)
推荐(0)
摘要:
Hadoop排序工具用法小结 发表于 2014 年 8 月 25 日 由 fish Hadoop用于对key的排序和分桶的设置选项比较多和复杂,目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。 基本概念: Pa 阅读全文
posted @ 2018-11-22 10:21
鱼&渔
阅读(383)
评论(0)
推荐(0)
摘要:
一. AWK入门指南 一. AWK入门指南 « AWK程序设计语言 :: Contents :: 二. AWK语言详解 » « AWK程序设计语言 :: Contents :: 二. AWK语言详解 » 一. AWK入门指南 Awk是一种便于使用且表达能力强的程序设计语言,可应用于各种计算和数据处理 阅读全文
posted @ 2018-11-22 10:21
鱼&渔
阅读(1019)
评论(1)
推荐(0)
摘要:
1. 前言 应 @龙星镖局 兄邀请写这篇文章。作为一个非常有效的机器学习方法,Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛冠军选手最常用的工具。最后,因为它的效果好,计算复杂度 阅读全文
posted @ 2018-11-22 10:20
鱼&渔
阅读(361)
评论(0)
推荐(0)
摘要:
1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值 阅读全文
posted @ 2018-11-22 10:19
鱼&渔
阅读(223)
评论(0)
推荐(0)
摘要:
数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空间向低纬特征空间映射的思路。 数据降维的目的 数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息 阅读全文
posted @ 2018-11-22 10:18
鱼&渔
阅读(1180)
评论(0)
推荐(0)
摘要:
1. 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多 阅读全文
posted @ 2018-11-22 10:17
鱼&渔
阅读(163)
评论(0)
推荐(0)
摘要:
贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类 阅读全文
posted @ 2018-11-22 10:16
鱼&渔
阅读(210)
评论(0)
推荐(0)
摘要:
1.引言 看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学习笔记总结一下。 首先说一下我的感受,《机器学习实战》一书在介绍原理的同时将全部的算法用源代码实 阅读全文
posted @ 2018-11-22 10:16
鱼&渔
阅读(348)
评论(0)
推荐(0)
摘要:
内容大纲: 1 Storm是什么 Storm 是一个分布式实时大数据处理系统,可以帮助我们方便地处理海量数据,具有高可靠、高容错、高扩展的特点。 Storm 是流式框架,有很高的数据吞吐能力,Strom 本身是无状态的,通过 ZooKeeper 管理分布式集群环境和集群状态。 Strom 的安装和使 阅读全文
posted @ 2018-11-22 10:15
鱼&渔
阅读(318)
评论(0)
推荐(0)
摘要:
什么是深度学习? 深度学习是机器学习的一个子领域,研究受人工神经网络的大脑的结构和功能启发而创造的算法。 wiki:深度学习是机器学习的分支,它试图使用包含复杂结构或者由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 李彦宏:简单的说,深度学习就是一个函数集,如此而已。 深度学习又称无监督 阅读全文
posted @ 2018-11-22 10:14
鱼&渔
阅读(285)
评论(0)
推荐(0)
摘要:
在大规模数据上跑机器学习任务是过去十多年内系统架构师面临的主要挑战之一,许多模型和抽象先后用于这一任务。从早期的MPI,到后来的Hadoop,乃至于目前使用较多的Spark,都曾被广泛应用于大规模机器学习处理任务。John Langford曾经在他的博客(机器学习领域最好的博客之一)上总结和对比了主 阅读全文
posted @ 2018-11-22 10:13
鱼&渔
阅读(4547)
评论(0)
推荐(0)
摘要:
Parameter Server架构 现在的机器学习系统,但凡是大一点的公司,恐怕都在用分布式了。而在分布式机器学习领域,最出名的恐怕就是少帅的PS框架了。在本博文里,PS框架特指第三代PS框架,即少帅的PS框架,PS框架在本文里有和分布式机器学习框架等同的意义。 本片博客是论文笔记性质,特此声明。 阅读全文
posted @ 2018-11-22 10:13
鱼&渔
阅读(2537)
评论(0)
推荐(1)
摘要:
前言 (标题不能再中二了)本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。 SGD 此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic g 阅读全文
posted @ 2018-11-22 10:12
鱼&渔
阅读(486)
评论(0)
推荐(0)
摘要:
作者:燕燕于飞差池其羽 链接:https://zhuanlan.zhihu.com/p/40825565 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 synchronized的缺陷 synchronized是java中的一个关键字,也就是说是Java语言内置的特 阅读全文
posted @ 2018-11-22 10:11
鱼&渔
阅读(170)
评论(0)
推荐(0)

浙公网安备 33010602011771号