• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
人生之路,职业之路
读书使人充实,交谈使人机敏,写记使人精确;
“动因+兴趣”——决心-持之以恒-见效
博客园    首页    新随笔    联系   管理    订阅  订阅
上一页 1 2 3 4 5 6 7 8 下一页
2014年4月14日
(转) MapReduce Design Patterns(chapter 5 (part 2))(十)
摘要: Replicated JoinPattern Description复制join是一种特殊的join,用于一个大数据和许多小数据集map端执行的情况。Intent这种模式能够消除reduce阶段的shuffle。Motivation复制join非常有用,除了一个大数据集外,对其它要join的数据集有... 阅读全文
posted @ 2014-04-14 10:00 FreeBird 阅读(331) 评论(0) 推荐(0)
(转) MapReduce Design Patterns(chapter 5 (part 1))(九)
摘要: Chapter 5. Join Patterns把数据保存成一个巨大的数据集不是很常见。例如,用户信息数据频繁更新,所以要保存到关系数据库中。于此同时,web日志以恒定的数据流量增加,直接写到HDFS。这些日志的日常分析过的数据保存在hdfs的某个地方,财务数据存储在加密的仓库中。还有很多例子。。。... 阅读全文
posted @ 2014-04-14 09:59 FreeBird 阅读(264) 评论(0) 推荐(0)
(转)MapReduce Design Patterns(chapter 4 (part 2))(八)
摘要: BinningPattern Description分箱模式,跟前面的类似,分类记录且不考虑记录的顺序。Intent归档数据集中的每条记录到一个或多个类别。Motivation分箱和分区很相似,可以用来解决相同的问题。不同点是如何用MapReduce框架建立箱或分区。有些情况下,一种比另一种好用。分... 阅读全文
posted @ 2014-04-14 09:58 FreeBird 阅读(401) 评论(0) 推荐(0)
(转)MapReduce Design Patterns(chapter 4 (part 1))(七)
摘要: Chapter 4. Data Organization Patterns与前面章节的过滤器相比,本章是关于数据重组。个别记录的价值通常靠分区,分片,排序成倍增加。特别是在分布式系统中,因为这能提高性能。在很多组织结构方面,Hadoop和其它MapReduce使用案例仅仅是大数据分析平台上一片数据的... 阅读全文
posted @ 2014-04-14 09:57 FreeBird 阅读(285) 评论(0) 推荐(0)
(转)MapReduce Design Patterns(chapter 3 (part 2))(六)
摘要: Top TenPattern DescriptionTop ten模式跟前面的有很大的不同,跟输入数据大小无关,最终得到的记录数量是确定的。而在通用filtering中,输出的规模取决于输入数据。Intent根据数据集的排名,获取相对较小的前K条记录,不管数据量多大。Motivation在数据分析中... 阅读全文
posted @ 2014-04-14 09:56 FreeBird 阅读(268) 评论(0) 推荐(0)
(转)MapReduce Design Patterns(chapter 3 (part 1))(五)
摘要: Chapter 3. Filtering Patterns本章的模式有一个共同点:不会改变原来的记录。这种模式是找到一个数据的子集,或者更小,例如取前十条,或者很大,例如结果去重。这种过滤器模式跟前面章节的不同是,从更小的粒度认识数据,例如特殊用户生成的记录,或文本中用得最多的前10个动词。简单的说... 阅读全文
posted @ 2014-04-14 09:54 FreeBird 阅读(406) 评论(0) 推荐(0)
(转)MapReduce Design Patterns(chapter 2 (part 3))(四)
摘要: Inverted Index SummarizationsPattern Description反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的term跟标识符之间映射的一般情况。Intent根据数据集生成索引,用于快速搜索或数据的富集能力。Motivation根据关... 阅读全文
posted @ 2014-04-14 09:53 FreeBird 阅读(490) 评论(0) 推荐(0)
(转)MapReduce Design Patterns(chapter 2 (part 2))(三)
摘要: Median and standard deviation中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的,它们不是那么容易的能从combiner中获益。中值是将数据集一分为两等份的数值类型,一份比中值大,一部分比中值小。这需要数据集按顺序完成清洗。数据必须是排序的,但存在一定障碍,因... 阅读全文
posted @ 2014-04-14 09:52 FreeBird 阅读(402) 评论(0) 推荐(0)
(转) MapReduce Design Patterns(chapter 2 (part 1))(二)
摘要: CHAPTER 2 .Summarization Patterns随着每天都有更多的数据加载进系统,数据量变得很庞大。这一章专注于对你的数据顶层的,概括性意见的设计模式,从而使你能扩展思路,但可能对局部数据是不适用的。概括性的分析都是关于对相似数据的分组和执行统计运算,创建索引,或仅仅为了计数。通过... 阅读全文
posted @ 2014-04-14 09:48 FreeBird 阅读(651) 评论(0) 推荐(0)
(转)MapReduce Design Patterns(chapter 1)(一)
摘要: 翻译的是这本书:Chapter 1.Design Patterns and MapReduceMapReduce 是一种运行于成百上千台机器上的处理数据的框架,目前被google,Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大,但它没有提供一个处理所谓“big data”的通用,普遍... 阅读全文
posted @ 2014-04-14 09:47 FreeBird 阅读(1696) 评论(0) 推荐(0)
2014年4月4日
(转)FP-tree的hadoop实现
摘要: FP 树是关联规则算法的一种,主要是用于分析数据项之间的关联性,将关联性大的数据项找出来,具体的一些概念见书《数据挖掘概念与技术》上介绍的频繁项集,支持度等。算法执行过程:1. 扫描数据,计算一项集的计数。2. 根据计数与支持度计算出频繁一项集,对于频繁一项集按照计数从大到小进行排序,并且对它们标上相应的序号后,把它们存放在 DFS 上,后面在做 MAP 或者 REDUCE 之前到 dfs 上读取相应的项集和序号。3. 根据划分集合的数目将频繁一项集划分成 G 份,并且对每一份有个标号 GID ,把一项集映射到相应的 GID 上,同样把这个 G-List 存放到 dfs 上,以后需要读取... 阅读全文
posted @ 2014-04-04 16:56 FreeBird 阅读(400) 评论(0) 推荐(0)
(转)mahout 实用教程
摘要: mahout svn仓库地址:http://svn.apache.org/repos/asf/mahout/trunkmovie length 数据地址:http://www.grouplens.org/system/files/ml-100k.zip1. mahout简介The Apache Mahout™ machine learning library's goal is to build scalable machine learning libraries.ClassificationLogistic Regression(SGD)BayesianSupport Vector 阅读全文
posted @ 2014-04-04 16:08 FreeBird 阅读(2969) 评论(0) 推荐(0)
2014年4月1日
(转)mahout推荐引擎使用hadoop
摘要: Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现,它是一个基于Java实现的可扩展的高效的推荐引擎。扩展性是指使用hadoop进行mapreduce计算,提高运算性能。 最近开始看源码,分析一下,做个笔记。 ItemSimilarityJob类是mahout使用hadoop做推荐引擎的主要实现类,下面开始分析。run()函数是启动函数:public final class RecommenderJob extends AbstractJob { public static final String BOOLEAN_DATA = "booleanData&q 阅读全文
posted @ 2014-04-01 16:49 FreeBird 阅读(1834) 评论(0) 推荐(0)
(转)Mahout 协同过滤 itemBase RecommenderJob源码分析
摘要: Mahout支持2种 M/R 的jobs实现itemBase的协同过滤 I.ItemSimilarityJob II.RecommenderJob下面我们对RecommenderJob进行分析,版本是mahout-distribution-0.7源码包位置:org.apache.mahout.cf.taste.hadoop.item.RecommenderJobRecommenderJob前几个阶段和ItemSimilarityJob是一样的,不过ItemSimilarityJob 计算出item的相似度矩阵就结束了,而RecommenderJob 会继续使用相似度矩阵,对每个user计算出应 阅读全文
posted @ 2014-04-01 16:47 FreeBird 阅读(1062) 评论(0) 推荐(0)
2014年3月21日
awk 字符串处理函数
摘要: awk提供了许多强大的字符串函数,见下表:awk内置字符串函数gsub(r,s) 在整个$0中用s替代rgsub(r,s,t) 在整个t中用s替代rindex(s,t) 返回s中字符串t的第一位置length(s) 返回s长度match(s,r) 测试s是否包含匹配r的字符串split(s,a,fs) 在fs上将s分成序列asprint(fmt,exp) 返回经fmt格式化后的expsub(r,s) 用$0中最左边最长的子串代替ssubstr(s,p) 返回字符串s中从p开始的后缀部分substr(s,p,n) 返回字符串s中从p开始长度为n的后缀部分 详细说明一下各个函数的使用方法。gens 阅读全文
posted @ 2014-03-21 15:52 FreeBird 阅读(54387) 评论(0) 推荐(0)
2014年2月8日
(转)Linux下配置ip地址
摘要: 即时生效:ifconfig eth0 192.168.1.102 netmask 255.255.255.0启动生效:vim /etc/sysconfig/network-scripts/ifcfg-eth0加入IPADDR=192.168.1.102NETMASK=255.255.255.0修改default gateway即时生效:route add default gw 192.168.1.1启动生效:vim /etc/sysconfig/network-scripts/ifcfg-eth0加入GATEWAY=192.168.1.1最后结果如下:DEVICE=eth0BOOTPROTO= 阅读全文
posted @ 2014-02-08 14:31 FreeBird 阅读(304) 评论(0) 推荐(0)
(转)Mahout分类算法效果评估指标
摘要: mahout中有许多分类器,包括Naive Bayes, Complementary Naive Bayes, Stochastic Gradient Descent, Support Vector Machine, Random Forest等。评估一个分类器(模型)的好坏,需要有一些指标,而在mahout中提供了下列衡量指标:1. %-correct (ConfusionMatrix类)最简单的,即正确分类的比率2. Confusion matrix (ConfusionMatrix类)通常是一个两行两列的矩阵,数据如下:[ # of true positives, # of false. 阅读全文
posted @ 2014-02-08 13:39 FreeBird 阅读(285) 评论(0) 推荐(0)
(转)mahout算法
摘要: Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restrict 阅读全文
posted @ 2014-02-08 13:36 FreeBird 阅读(213) 评论(0) 推荐(0)
(转)Linux用户环境变量
摘要: 环境变量就是系统或软件设置的一些参数,用户环境变量就是用户登录系统后,都有自已专用的运行环境。在Windows系统中用户环境变量保存在用户家目录,Linux也是同样的。本文主要是讲解Linux常用的环境变量和环境变量的设置。一、环境变量相关操作(只应用于当前,要永久保存需要写入到相关文件。) #echo $PATH 显示PATH设置。 #env 显示当前用户变量。 #set 显示当前Shell变量。 #export 显示当前导出成用户变量的shell变量。 #a=abc 定义一个Shell变量。 #export a=abc 定义一个Shell变量,并导出成用户变量。 #unset a 清除环境 阅读全文
posted @ 2014-02-08 09:21 FreeBird 阅读(17024) 评论(0) 推荐(1)
2014年1月20日
(转)EDM中的测试(A/B Testing)策略和方法
摘要: 数据分析中有一种方法叫对比分析,而A/B test则是对比分析的典范。试验组VS控制组,测试过好孰好孰坏一目了然,从某种程度上讲A/B test与统计学中的T检验和方差分析有着类似的思路,前面2篇介绍了A/B test 的基本概念和实现方法,本篇则推荐的是EDM过程中A/B test的应用范例。 在给一个客户推荐电子邮件服务商的时候,我们考虑到他在这方面的总预算不过几十K€,每年才发送不到10万封邮件,所以推荐了一个最经济实惠的邮件服务商。结果那位客户却是个“行家”,理直气壮的质问我们为什么不推荐Neolane!我们顿时集体失语。(注脚:Neolane是一个管理多渠道营销活动的软件,起步价在5 阅读全文
posted @ 2014-01-20 17:22 FreeBird 阅读(1644) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 下一页
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3