12 2012 档案

摘要:1.1 实时流计算互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的说是关系型数据库)应该是软件行业发展最快、收益最为丰厚的产品了。记得十年前,很多银行别说实时转账,连实时查询都做不到,但是数据库和高速网络改变了这个情况。随着互联网的更进一步发展,从Portal信息浏览型到Search信息搜索型到SNS关系交互传递型,以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化。对效率的要求让大家对于实时性的要求进一步提升,而信息的交互和沟通正在从点对点往信息链 阅读全文
posted @ 2012-12-29 15:50 subsir 阅读(1267) 评论(0) 推荐(0)
摘要:原文摘自腾讯开放平台,作者火谷网络:http://kan.weibo.com/con/3520542683307627?_from=image任何一款游戏运营,都是以UED、数据分析为导向,如何开发、运营好一款成功的全球社交游戏,是每个社交游戏产品经理头等大事。用数据说话,是一个简单明快的操作方式,但社交游戏的数据如何分类?海内外关注点有何区别?相信作为每个社交游戏产品经理是非常关心的话题,那么我们就从基础知识入手,逐步梳理出符合运营需求的核心数据环节,抛弃冗长复杂的多类数据,为自己的成功打下扎实的基础。付费率=付费用户÷活跃用户x100活跃率=登陆人次÷平均在线人数ARP 阅读全文
posted @ 2012-12-29 15:31 subsir 阅读(660) 评论(0) 推荐(0)
摘要:转载:http://kan.weibo.com/con/3528138114144927?_from=image随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主 阅读全文
posted @ 2012-12-29 15:11 subsir 阅读(602) 评论(0) 推荐(0)
摘要:摘自《市场研究网络版》——谢邦昌教授1、记忆基础推理法(Memory-Based Reasoning;MBR) 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关.. 阅读全文
posted @ 2012-12-27 01:44 subsir 阅读(437) 评论(0) 推荐(0)
摘要:转载:http://blog.csdn.net/aladdina/article/details/4141177国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。1.C4. 阅读全文
posted @ 2012-12-27 01:24 subsir 阅读(598) 评论(0) 推荐(0)
摘要:转载:http://www.blogjava.net/Todd/archive/2010/05/22/321618.htmljar下载地址:http://sourceforge.net/projects/dom4j/files/?source=navbar一.Document 对象相关1. 读取XML文件,获得document对象.SAXReaderreader=newSAXReader();Documentdocument=reader.read(newFile("input.xml"));2.解析XML形式的文本,得 到document对象.Stringtext=&qu 阅读全文
posted @ 2012-12-25 19:02 subsir 阅读(267) 评论(0) 推荐(0)
摘要:转载:http://blog.sina.com.cn/s/blog_6d58024c0100yfyj.html 在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我们需要用到很多的分析工具,这里我们只介绍最常用和基础的分析方法:拆分。一、看数据分布 最简单的拆分方法就是不看平均值,看数据分布。因为凡是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人被抬高到人均几亿身家。如果有人根据这个“平均.. 阅读全文
posted @ 2012-12-21 13:34 subsir 阅读(341) 评论(0) 推荐(0)
摘要:近期做过一个用户性别分类推荐,通过服务器下发控制,随即50%概率抽取一部分用户进行男女性别分类推荐,另外50%概率用户继续保持原有推荐。由于时间季节的影响,对于新算法测试,最好采用A/B测试,原因是不受时间季节影响,运营数据在月头与月尾,节假日等各种特殊时间都会有不同的规律,保证在同一规律,同一用户基础上做算法测试,是简单直观的办法。A是新算法推荐样本,B是原有推荐样本,直接对A和B进行各阶段的用户流量,转化率等对比分析,进而得出那套推荐最优。以下是我从网上转载来的文章,对A/B测试的基本概念和实现方法的讲解转载:http://oldj.net/article/AB-Testing-basic 阅读全文
posted @ 2012-12-20 10:18 subsir 阅读(930) 评论(0) 推荐(0)
摘要:转载:http://blog.csdn.net/program_think/article/details/4574233 ◇为啥俺要写这个帖子? 国内的IT技术人员(尤其是程序员),往往都偏内向。俺见过周围很多能力蛮不错的同事,由于不善于包装自己,长期被埋没,个人能力没法得到有效发挥。这 不论是对个人、还是对公司,都相当不利(属于双输)。所以,俺写这个帖子,是为了帮助这类同学改变这种局面,制造个人和公司的双赢。 ◇本文适合哪些人? 首先,个人品牌的包装,是以个人实力为后盾滴。没有实力而硬着头皮包装,容易误入“做秀”的歧途。假如你的能力尚嫌不足,那你首要考虑的问题是如何提升个人的实力,... 阅读全文
posted @ 2012-12-17 17:37 subsir 阅读(882) 评论(0) 推荐(0)
摘要:“沉默的大多数”一词,借用了王小波的一篇知名杂文。不过俺今天要聊的内容和王小波无关、也和政治无关。今天的内容,是探讨某些思维的误区。这些误区的根源,都在于忽视了沉默的证据。 ★误区1:把随机事件当作确定事件 在本届世界杯期间,各种“预言帝”纷纷出笼。从8条腿的章鱼到2条腿的人,都敢于指点未来。关键是这些“预言帝”还很有市场,连不少IT行业的开发人员,都被它们蒙住了。下面俺举其中的2个事例。 ◇百度贴吧的未来客 在世界杯刚开打的6月13日,一个网名叫“X来自未来”的网友在百度的2012吧发了个帖子(在"这里")。它声称自己来自未来,并给出了世界杯决赛的预言——荷兰对西班牙。等 阅读全文
posted @ 2012-12-17 17:27 subsir 阅读(266) 评论(0) 推荐(0)
摘要:作者: Ted Spence当你的游戏吸引到大量玩家后,你可以开始得到丰厚的回报了。现在,你的难题是怎么让这种成功延续下去。你必须想出接触到用户的方法,计算出那类玩家可以从推广奖励中获益。所以,现在是时候设计一个分析数据的回归模型了。regression-analysis(from shmula.com)简介回归分析我不想拐弯抹角了:回归分析的知识点很多。你需要了解的是,它是一种数学方法,是由某些史上最聪明的数学家发明的,包括高斯,他用这个方法预测行星的位置——所以这不是一个简单的领域啊。但在本文中,我只谈一些基本的用法。首先,大部分公司都很容易就得出某些比率,比如:“23%访问我们网站的人体 阅读全文
posted @ 2012-12-11 18:43 subsir 阅读(2197) 评论(0) 推荐(0)
摘要:假设一个场景:存在表user_score,该表的数据如下idratescore1'0-4'102'0-4'403'0-4'304'0-4'205'5-10'106'5-10'407'5-10'308'5-10'209'11-20'1010'11-20'4011'11-20'3012'11-20'20 现在要求用一条查询语句取出每种rate下score最大的两条记录,也就算取出id为:2,3,6,7,10, 阅读全文
posted @ 2012-12-11 17:47 subsir 阅读(2806) 评论(0) 推荐(0)
摘要:什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。聚类分析的基本过程是怎样的?选择聚类变量聚类分析找出各类用户的重要特征聚类解释&命名|| 选择聚类变量在设计问卷的时候,我们会根据一定的假设,尽可能选取对产品使用行为有影响的变量,这些变量一般包含与产品密切相关的用户态度、观点、行为。但是,聚类分析过程对用 阅读全文
posted @ 2012-12-06 01:05 subsir 阅读(411) 评论(0) 推荐(0)
摘要:转载:http://blog.sina.com.cn/s/blog_49f78a4b0102e0p3.html 阅读全文
posted @ 2012-12-05 12:35 subsir 阅读(819) 评论(0) 推荐(0)
摘要:http://blog.sina.com.cn/s/blog_61c463090100pbdh.html导入到hdfsbin/hadoop fs -put ./KDDTrain+.arff /user/root/bin/hadoop fs -put ./KDDTest+.arff /user/root/生成格式数据bin/hadoop jar mahout-0.4.jar org.apache.mahout.df.tools.Describe -p "/user/root/KDDTrain+.arff" -f /user/root/KDDTrain+.info -d N 3 阅读全文
posted @ 2012-12-03 19:36 subsir 阅读(524) 评论(0) 推荐(0)
摘要:欧几里德相似度(Euclidean Distance)最初用于计算欧几里德空间中两个点的距离,以两个用户x和y为例子,看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值,yi表示用户y对itemi的喜好值,他们之前的欧几里德距离是对应的欧几里德相似度,一般采用以下公式进行转换:距离越小,相似度越大在taste里,计算user之间和item之前欧几里德相似度的类是EuclideanDistanceSimilarity。皮尔逊相似度(Pearson Correlation Coefficient)皮尔逊相关系数一般用于计算两个定距变量间线性相关的紧密程度,它的取值在[-1,+1] 阅读全文
posted @ 2012-12-02 13:42 subsir 阅读(1041) 评论(0) 推荐(0)