上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 119 下一页

2014年10月11日

Mahout推荐算法之SlopOne

摘要: Mahout推荐算法之SlopOne 一、 算法原理 有别于基于用户的协同过滤和基于item的协同过滤,SlopeOne采用简单的线性模型估计用户对item的评分。如下图,估计UserB对ItemJ的偏好 图(1) 在真实情况下,该方法有如下几个问题: 1. 为什么要选择Use... 阅读全文

posted @ 2014-10-11 09:35 代码王子 阅读(221) 评论(0) 推荐(0)

2014年10月8日

Impala:新一代开源大数据分析引擎

摘要: impala架构分析 Impala是Cloudera公司主导开发的新型查询系统,SQL语义查询在Hadoop的HDFS和HBase中的PB级大数据。Hive系统虽然也提供了SQL语义,但底层执行的是MapReduce引擎,仍然是一个批处理过程,不能满足查询的交互性。相比之下,Impala的最... 阅读全文

posted @ 2014-10-08 17:22 代码王子 阅读(298) 评论(0) 推荐(0)

Google Dremel 原理 - 如何能3秒分析1PB

摘要: 摘自:http://www.yankay.com/google-dremel-rationale/ 简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,G... 阅读全文

posted @ 2014-10-08 16:42 代码王子 阅读(284) 评论(0) 推荐(0)

一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

摘要: 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在ElasticSear... 阅读全文

posted @ 2014-10-08 11:22 代码王子 阅读(403) 评论(0) 推荐(0)

2014年9月29日

Server2012R2 ADFS3.0 The same client browser session has made '6' requests in the last '13'seconds

摘要: 本问题是在windows server2012R2系统ADFS3.0环境下遇到的,CRM2013部署ADFS后运行一段时间(大概有一两个月)后在IE浏览器中访问登陆界面点击登陆后就报以下错误 “Microsoft.IdentityServer.Web.InvalidReques... 阅读全文

posted @ 2014-09-29 14:17 代码王子 阅读(164) 评论(0) 推荐(0)

2014年9月25日

pig的grunt中shell命令不稳定,能不用尽量不用

摘要: shell命令:mv a b 将文件a改名为b, 可如果b已经存在,比如/test文件下有a和b两个文件,执行mv a b后,b被覆盖的了。也就是/test文件下只有a。 但是mv命令在pig的grunt中使用有问题,执行不稳定。 pig编程指南中说,除了cd和pwd两个命令,其他命令不推荐... 阅读全文

posted @ 2014-09-25 18:07 代码王子 阅读(104) 评论(0) 推荐(0)

2014年9月24日

pig脚本的参数传入,多个参数传入

摘要: pig脚本里传入参数,命令如下 pig -p year=2014 -f test_parm.pig 也可以 pig -f test_parm.pig -p year=2014 -f后面必须紧跟脚本名称 如果没有-f,则必须用 pig -p year=2014 test_parm.pig... 阅读全文

posted @ 2014-09-24 18:09 代码王子 阅读(448) 评论(0) 推荐(0)

pig的cogroup详解

摘要: 从实例出发 %default file test.txt A = load '$file' as (date, web, name, food); B = load '$file' as (date, web, name, food); C= cogroup A by $0, B by $1... 阅读全文

posted @ 2014-09-24 09:38 代码王子 阅读(186) 评论(0) 推荐(0)

2014年9月22日

pig的limit无效(返回所有记录)sample有效

摘要: pig中,limit可以取样少部分数据,但有很多问题,比如数据不能少于10条,否则返回全部。 今天又遇到另一个问题: group后的数据,limit无效:也就是group后的数据,不能用limit,估计是含group结构不行(没验证) 相比而言sample比较好,我试了一下是可以的,对group... 阅读全文

posted @ 2014-09-22 17:08 代码王子 阅读(429) 评论(0) 推荐(0)

2014年9月20日

Dynamics CRM2013 任务列表添加自定义按钮

摘要: 任务列表的command bar 上面添加自定义按钮如下 要注意的是此处的列表不是任务实体而是活动实体,如果你是在任务实体的home栏上面加那你永远看不见按钮的显示,但如果是要在任务的表单界面上加按钮,解决方案中就该添加任务实体了 记住这边的是home而不是form ... 阅读全文

posted @ 2014-09-20 11:39 代码王子 阅读(131) 评论(0) 推荐(0)

上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 119 下一页

导航