Spiga

随笔档案 - 2011年12月

页面抓取匹配时,万恶的\r,\n,\t 要先替换掉为空,出现匹配有问题,都是这个引起的

2011-12-03 00:04 by yuejianjun, 34 visits, 网摘, 收藏, 编辑
摘要:页面抓取匹配时,万恶的\r,\n,\t 要先替换掉为空,出现匹配有问题,都是这个引起的 阅读全文

探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探

2011-12-01 23:34 by yuejianjun, 13 visits, 网摘, 收藏, 编辑
摘要:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM简介: 随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而 阅读全文

深度用户行为 多维度深入分析笔记

2011-12-01 23:33 by yuejianjun, 62 visits, 网摘, 收藏, 编辑
摘要:http://www.admin5.com/article/20080616/89128.shtml 目前所有对用户行为的分析莫过于这种几种模式:用户注册信息,定制列表,操作记录,用户历史轨迹跟踪等。但是这些都只是用户行为分析中的冰山一角,在实际分析过程中,维度(www.vdoing.com)将诸多信息进行权重排序,提炼核心信息来构建一个3维的统计分析体系。 对于一个新站点来说,进行用户行为分析,最缺乏的是用户在站内的行为轨迹。因为没有一定量的数据,是很难通过正态分析,也没有办法进行聚类分析,无法确立群体特征的。如果一个新站希望能够在用户行为分析和挖掘上有一定的作为,在使用一般统计和分析... 阅读全文