摘要: R+googleVis实现数据动态可视化 缘起2006年Hans Rosling shows the best stats you've ever seen,之后HansRosling团队被google收购成为google可视化产品,再后来基于R开发了googleVis包,通过它可以很快捷实现美丽图形,你要做的就是创意,发现数据价值。详细信息http://code.google.com/p/google-motion-charts-with-r/具体实现如下:install.packages("googleVis")m<-gvisMotionChart(Fru 阅读全文
posted @ 2012-01-26 10:16 小司 阅读(1134) 评论(0) 推荐(0) 编辑
 
摘要: 译言网http://www.yeeyan.org/华尔街日报中文版http://cn.wsj.com/gb/index.asp科学网http://blog.sciencenet.cn/blog.html视频分享http://www.ted.com/ http://www.5min.com网易公开课http://v.163.com/open/http://wordpress.org/代码与算法IT博客http://blogread.cn/it/http://code.google.com/intl/zh-CN/数据分析挖掘相关R官网 http://www.r-project.org/R论坛 ht 阅读全文
posted @ 2011-07-12 15:31 小司 阅读(396) 评论(0) 推荐(0) 编辑
 
摘要: 四类 NoSQL数据库存储类型:1.Key-values 存储. 其主要思想是应用哈希表,是一种最简单和最早的应用,适用于一次写入多次读取的场景。key-value分布式存储系统查询速度快、存放数据量大、支持高并发,非常适合通过主键进行查询,但不能进行复杂的条件查询。如果辅以Real- Time Search Engine(实时搜索引擎)进行复杂条件检索、全文检索,就可以替代并发性能较低的MySQL等关系型数据库,达到高并发、高性能,节省几十倍服务器数量的目的。以MemcacheDB、Tokyo Tyrant为代表的key-value分布式存储,在上万并发连接下,轻松地完成高速查询。而MySQ 阅读全文
posted @ 2011-07-01 00:19 小司 阅读(789) 评论(0) 推荐(0) 编辑
 
摘要: 网友反馈:视频网站体验好的因素为速度、清爽;而体验差则是页面让人烦、播放器嘈杂、前贴片广告时间长。笔者认为还有其他重要影响因素呢,比如视频资源质和量,视频的个性化推荐。 国内视频网站风起云涌,产品大同但又有不小差异,视频网站的生存不但要看谁的片源丰富,还要在产品设计和页面布局上给用户量化的体验,国内视频网站要寻找适合自己的模式和风格,定位自己的稳定高质用户群体是未来发展之道。目前作为国内视频网站的老大优酷有可圈可点处,笔者略谈以下几点:观点:Ø 优酷在栏目设置上风格整体统一、栏目细分丰富Ø 优酷注重引导用户上传作品、推荐作品,并收集用户意见反馈Ø 优酷在栏目醒目设 阅读全文
posted @ 2011-05-05 15:33 小司 阅读(2341) 评论(12) 推荐(2) 编辑
 
摘要: 一看就懂,一目了然,还不容易忘掉。 协同过滤来源:http://www.aist.go.jp/aist_e/aist_today/2004_13/hot_line/hot_line_39.html基于协同的推荐系统来源:http://www.irelaxa.com/Geecat/2010/09/16/recommendation-system-collaborative-filtering/ 阅读全文
posted @ 2011-03-09 22:01 小司 阅读(481) 评论(0) 推荐(0) 编辑
 
摘要: Running kernel and system information # uname -a # Get the kernel version (and BSD version)# lsb_release -a # Full release info of any LSB distribution# cat /etc/SuSE-release # Get SuSE version# cat /etc/debian_version # Get Debian versionUse /etc/DISTR-release with DISTR= lsb (Ubuntu), redhat, gent 阅读全文
posted @ 2011-02-19 22:10 小司 阅读(1628) 评论(0) 推荐(0) 编辑
 
摘要: 网站分析是个不旧不新的领域,但对于社交网站分析、视频网站分析,目前还没有统一的模式,特别是分析主题、相关指标等都有很多事情可以做。通过2个月的学习研究,越看越觉得可做的事情太多了。总结近期的研究可以分这么几大块:视频分发策策略及其效果分析研究;网站基本运营指标分析;用户站内搜索行为分析;用户点击行为分析;广告点击行为分析;用户付费行为分析等等等。对于网站分析指标,目前主要有页面浏览次数、用户数、唯一用户数、流失率、转换率、视频浏览次数等,随便搜索一些都可以找到,但对于视频网站几大类的分析主题指标从目前搜索的情况看还没有统一的规范,要根据网站自身情况,去定义自己的KPI指标。比如,流失率是一个很 阅读全文
posted @ 2011-01-17 23:22 小司 阅读(2428) 评论(7) 推荐(4) 编辑
 
摘要: 良好的项目沟通是项目团队管理的基础,更是敏捷项目团队中管理效果的重要体现,沟通效果好,大家都爽,项目进展不仅快,质量还后,否则反之。Table 1. Effectiveness of communication strategies on agile development teams.Communication StrategyWithin TeamWith StakeholdersFace to face (F2F)4.254.06F2F at Whiteboard4.243.46Overview diagrams2.541.89Online chat2.100.15Overview do 阅读全文
posted @ 2011-01-07 23:32 小司 阅读(1232) 评论(2) 推荐(1) 编辑
 
摘要: 一图抵千言,搜集本人认为好的领域图片,不断更新中。 阅读全文
posted @ 2010-12-31 12:30 小司 阅读(1616) 评论(0) 推荐(0) 编辑
 
摘要: 走了不少弯路,总算把这个问题搞定,贴到这里分享给大家。1:下载安装PostgreSQL的ODBC驱动http://www.postgresql.org/ftp/odbc/versions/msi/2:配置ODBC连接PostgreSQL数据库R通过ODBC访问数据库方法下载安装RODBC包,通过R-程序包-找到RODBC进行安装即可3:接着在R软件中进行连接测试> library(RODBC... 阅读全文
posted @ 2010-11-23 11:11 小司 阅读(717) 评论(0) 推荐(0) 编辑
 
摘要: 构建大型关系数据仓库的十大最佳实践撰稿人:Stuart Ozer、Prem Mehra 和 Kevin Cox技术审阅人:Lubor Kollar、Thomas Kejser、Denny Lee、Jimmy May、Michael Redman 和 Sanjay Mishra构建大型关系数据仓库是一项复杂的任务。本文介绍一些使用 SQL Server 构建高效的大型关系数据仓库时的设计技巧。由于大... 阅读全文
posted @ 2010-09-11 09:31 小司 阅读(477) 评论(0) 推荐(0) 编辑
 
摘要: SQL Server 2005 - SSIS DeploymentWritten By: Jeremy Kadlec With SSIS functionally the same general steps are followed, but the detailed process is much different. For example, development is completed... 阅读全文
posted @ 2010-05-19 21:50 小司 阅读(1815) 评论(1) 推荐(1) 编辑
 
摘要: 做BI有2年了,很多时候客户感觉你做的还是报表,不怕客户有需求,就怕客户无需求!让你用BI做,又不知道要做什么,这是很痛苦的事情。前段时间去某省联通总部,看到一张数据表,表结构如下。Name Type Nullable Default Comments --------------- ------------ -------- ------- -------- DATE_TIME VARCHAR2... 阅读全文
posted @ 2010-05-14 16:00 小司 阅读(1240) 评论(0) 推荐(1) 编辑
 
摘要: 用了就知道,非常好,分享给微软BI开发的同仁们。/Files/sxfmol/BIDSHelper2005Setup.rar/Files/sxfmol/BIDSHelper2008Setup.rar 阅读全文
posted @ 2010-04-30 17:33 小司 阅读(580) 评论(2) 推荐(2) 编辑
  2011年7月1日
摘要: consistent hashing算法早在1997年就在论文Consistent hashing and random trees中被提出,目前在cache系统中应用越来越广泛;1基本场景比如你有N个cache服务器(后面简称cache),那么如何将一个对象object映射到N个cache上呢,你很可能会采用类似下面的通用方法计算object的hash值,然后均匀的映射到到N个cache;hash(object)%N一切都运行正常,再考虑如下的两种情况;1一个cache服务器m down掉了(在实际应用中必须要考虑这种情况),这样所有映射到cache m的对象都会失效,怎么办,需要把cach 阅读全文
posted @ 2011-07-01 00:24 小司 阅读(258) 评论(0) 推荐(0) 编辑
  2011年6月30日
摘要: 这么给力的收集,整理不转不行呀!原文转自:http://blog.sina.com.cn/s/blog_4ecd024b0100sjuv.html中文博客站点数据挖掘与分析小蚊子乐园数据挖掘与数据分析数据挖掘者未来趋势—车品觉数据化管理沈浩老师数据文化数据挖掘营销应用郑来轶ExcelPro的图表博客数据元素庖丁的小刀让数据说话Flystarhj的博客数据小兵SAS数据挖掘数据&分析统计软件学习图说企业文化诸葛小川数据之路数据分析与研究>>>待补充网站分析网站数据分析网站分析在中国MAR’S观点上海WA非官方组织网站分析Tenly的互联网哲学在线广告分析邮件营销在中国香 阅读全文
posted @ 2011-06-30 23:06 小司 阅读(265) 评论(0) 推荐(0) 编辑
  2011年6月28日
摘要: 错误:ERROR mapred.FileOutputCommitter: Mkdirs failed to create /user/partitioner/output/_temporary原因:自己要的输出值类型为Text,在原程序写成IntWritable了改为Text即可 job.setOutputValueClass(Text.class); 阅读全文
posted @ 2011-06-28 17:44 小司 阅读(407) 评论(0) 推荐(0) 编辑
  2011年6月26日
摘要: 在网上查了很长时间很多次因为种种细节错误,都没能成功,今天总算可以了。过程如下:基本环境:Master cloud003 IP:192.168.140.203Slave cloud004 IP:192.168.140.204注:设置虚拟机IP时,一定要用NAT方式,操作系统:ubuntu现在开始安装了,下载JAVA等过程略过在每台机器上安装JAVA、HADOOP、SSH等,注意要安装在同一目录下;JAVA和Hadoop安装在 /usr/local目录下设置环境变量到/etc/profile文件,这样其他用户也可以访问了export JAVA_HOME=/usr/local/jdk1.6.0_2 阅读全文
posted @ 2011-06-26 00:43 小司 阅读(280) 评论(0) 推荐(0) 编辑
  2011年6月25日
摘要: 当下NoSQL产品类型繁多,各有各的特点,再加上关系型数据库,貌似我们可选择的东西太多了。如诗言“乱花渐欲迷人眼”,在我们选择存储产品的时候,应该从哪些方面进行考量呢?下面一篇文章对当前的NoSQL产品进行了分类对比,列出了各家特点,有一定的指导意义。NoSQL四大类1.key-value存储ExamplesTokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB典型应用场景内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。数据模型Key 指向 Value 的键值对,通常用hash table来实现强项查找速度快弱项数据无结构化,通 阅读全文
posted @ 2011-06-25 11:03 小司 阅读(321) 评论(0) 推荐(0) 编辑
  2011年6月18日
摘要: 啥也不用多说,一图抵前言,向作者致谢 阅读全文
posted @ 2011-06-18 18:53 小司 阅读(198) 评论(1) 推荐(0) 编辑
  2011年5月27日
摘要: 问题 KPI 使用推荐区的用户数量和比率是否显著提升 使用推荐区用户量及其占比与之前进行对比 新老用户使用推荐差异是否明显 新老用户推荐区使用比率占各自类别比,新老用户推荐区产生的VV占各自类别比 推荐区产生的VV占总VV是否显著提升 推荐区VV占总VV占比与推荐系统上线前进行对比 推荐区是否带来了VV量的显著提升 推荐区VV量和占比与推荐系统上线前同一区域产生的VV进行对比 字段 说明 id 一次访问唯一标示 UID 用户ID 地区ID 访问时间 PV次数 用户类别 0:新用户,1:老用户,2:未知 VV访问模式 0:表示访问剧场,但未产生任何VV;1:表示产生剧场VV,但VV不连续即推荐. 阅读全文
posted @ 2011-05-27 14:31 小司 阅读(1176) 评论(1) 推荐(0) 编辑