星云外

2010年4月3日

工作日志4.3——处理实验数据

摘要: nutch爬取了分类文档集,回头看了sg日志,重复值很高,用distinct清洗了日志数据,抽取了几个查询内容比较丰富的用户信息,加上了时间戳准备先做历史click的聚合,再帮着界面的给呈现以下。。。。其他的没什么好说的,就写刚刚完成的这部分吧实验数据范例:上游理解有歧义,首先改列名USE temp;GOEXEC sp_rename 'dbo.expri5.ClickRank', 'ClickPa... 阅读全文

posted @ 2010-04-03 21:01 星云外 阅读(279) 评论(0) 推荐(0) 编辑