随笔列表第2页 - kobeshow

2014年2月26日

摘要：本文从互联网收集并整理了推荐系统的架构，其中包括一些大公司的推荐系统框架（数据流存储、计算、模型应用），可以参考这些资料，取长补短，最后根据自己的业务需求，技术选型来设计相应的框架。后续持续更新并收集。。。图1 界面UI那一块包含3块东西：1) 通过一定方式展示推荐物品(物品标题、缩略图、简介等)；2) 给的推荐理由；3) 数据反馈改进个性化推荐；关于用户数据的存放地方：1)数据库/缓存用来实时取数据；2) hdfs文件上面；抽象出来的三种推荐方式图2 图3 图3中，推荐引擎的构建来源于不同的数据源(也就是用户的特征有很多种类，例如统计的、行为的、主题的)+不同的... 阅读全文

posted @ 2014-02-26 16:13 kobeshow 阅读(39196) 评论(10) 推荐(8) 编辑

2014年2月25日

流失预警模型--实时查询

摘要：本篇主要做的是一个流失预警模型实时查询的一个测试，需求描述：用户名单请求判断是否流失，秒级内返回判断结果。操作场景如下：流失预警模型，预测用户是否在未来一段时间内流失(牵涉到流失定义，用户活跃度定义，用户行为时间定义等)建立，用到了用户最近行为特征、行为趋势特征等，最后预测是否流失(1流失，0留存)。在本文的测试之前已经把模型建好。实验条件：ubuntu13.04 32位,mysql,mysqldb，scikit-learn1.4安装Mysqlsudo apt-get install mysql-client-core-5.5sudo apt-get install mysql-server 阅读全文

posted @ 2014-02-25 13:50 kobeshow 阅读(3151) 评论(2) 推荐(1) 编辑

2014年2月22日

推荐系统开源软件

摘要：以下内容是转至盛大创新研究院官方博客的一篇文章http://in.sdo.com/?p=1707，文中几乎涵盖了当今主流的推荐系统开源软件，我把全文都贴过来了，不过与原文不同的是我把有些已经停止更新/或者更新很慢的都往后面排了。另外也写写自己的一些使用总结。原文开始：收集和整理了目前互联网上能找到的开源推荐系统，并附上了个人的一些简单点评（未必全面准确），这个列表是目前为止比较全面的了，希望对大家了解掌握推荐系统有帮助（文/陈运文）SVDFeature由上海交大的同学开发，采用C++语言，代码质量很高。去年我们参加KDD竞赛时用过，很好很方便，而且出自咱们国人之手，所以置顶推荐！项目地址. 阅读全文

posted @ 2014-02-22 15:00 kobeshow 阅读(3998) 评论(0) 推荐(1) 编辑

推荐系统知识点汇总

摘要：整理归纳一下《推荐系统实践》和《推荐系统导论》两本书的知识点，文中排版格式可能会有点乱，如有问题请指正。OK，闲话不说，先上2张图对推荐系统的建模数据进行分析，代表型数据：1)无上下文的隐形反馈数据；2) 无上下文的显性反馈数据；3) 有上下文的隐形反馈数据；4)有小上下文的显性反馈数据，其中显性的反馈数据就是用户对物品的评分，而隐形的就是用户对物品的浏览，时长等数据(不同的领域，用户对物品的行为种类不一样)，像我之前的做的都全是用有上下文的隐形反馈，都是通过点击、登陆、时长归纳出来的用户对物品的评分。有了用户数据以后，可以做一些行为的分析：1) 用户活跃度和物品流行度的分布(用户... 阅读全文

posted @ 2014-02-22 13:59 kobeshow 阅读(3516) 评论(2) 推荐(0) 编辑

2014年2月18日

SlopeOne推荐算法

摘要： Slope One 算法是一种基于评分的预测算法, 本质上也是一种基于项目的算法。与一般的基于项目的算法不同, 该算法不计算项目之间的相似度, 而是用一种简单的线性回归模型进行预测（可以扩展）算法易于实现, 计算速度快, 可扩展性好, 同时对数据稀疏性有较好的适应性。例如下面表格里有3个用户对4个物品的评分101102103104UserX53.5UserY2542UserZ4.53.514 求物品两两之间的差值平均分: 物品102和101：{(3.5-5)+(5-2)+(3.5-4.5)}/3=0.5/3 物品103跟101：{(4-2)+(1-4.5)}/2=-... 阅读全文

posted @ 2014-02-18 10:30 kobeshow 阅读(4570) 评论(0) 推荐(0) 编辑

2014年2月17日

数据化运营(3)

摘要：在现代商业里面，谁了解用户，谁就占得先机，了解用户往深的讲可以通过熟悉用户的特征。用户特征的分析不仅仅是数据化运营的基础，也是以用户为中心的企业赖以生存及发展的基本条件。在大数据来临的时代后，针对用户特征分析又有了新的需求，也有了更多维度，更多分析技术的选择。下面一章就是本书的作者归纳提炼的一些分析手段跟实战经验。第11章用户特征分析的典型应用跟技术小窍门第12章运营效果分析的典型应用跟技术小窍门第13章漏斗模型跟路径分析漏斗模型主要分析目是针对运营过程中各个关键环节的转化率、运营效果以及过程，优化转化率低的环节，路径分析通常是针对用户的每一个网络行为进行精细跟踪和记录，在此... 阅读全文

posted @ 2014-02-17 16:32 kobeshow 阅读(616) 评论(0) 推荐(0) 编辑

2014年2月14日

数据化运营(2)

摘要：第10章预测响应(分类)模型的应用和技术小窍门正如上篇文章所说的本书的重点是商业+模型，本章节中关于算法的一些描述我觉得有些不妥，例如介绍决策树(DT)的优缺点的时候，文中指出“如果目标变量是连续型变量，那么决策树就不适用了，最好改成线性回归”，其实DT算法也是可以解决回归问题的，例如互联网广告页面的点击率预测就可以用GBRT(梯度的boosting tree)来预测，再例如文中对比线性回归跟逻辑回归时，说线性模型是目标变量跟自变量呈线性，而logistic regression又不是线性的，这个从算法层面来讲就有点矛盾了，logistic regression其实也是一个线性模型。全.. 阅读全文

posted @ 2014-02-14 17:55 kobeshow 阅读(573) 评论(0) 推荐(0) 编辑

2014年2月13日

数据化运营(1)

摘要：前段时间，boss推荐，买来看了一下，觉得里面有很多干货，尽管有关怎么建模，如何建模等深入到算法层面的东西讲的比较少，但是该书站在商业化，业务+技术的角度阐释了该如何做数据挖掘，以下我是用思维导图的方式记录了的笔记(直接从云笔记里面copy过来)第三章常见数据分析模型第四章数据化运营是跨专业、跨团队的合作第五章主要谈到新手数据分析师常见的错误观念1，轻视业务；2，技术万能；3，技术尖端；4，机器万能；总的来说要紧密结合业务挖掘有价值的东西。平常思考过程中别把关联关系转化成因果关系第六章一个完整的挖掘案例流程第七张章挖掘模型优化跟评价指标第八章常见数据处理技巧在数据挖掘领域一个很经. 阅读全文

posted @ 2014-02-13 17:13 kobeshow 阅读(1556) 评论(0) 推荐(1) 编辑

2014年1月7日

竞争对手分析路径图

摘要：共10个步骤。竞争对手研究的五个层次：最低层次是知道自己的竞争对手是谁；第二层次是能分析竞争对手的各种状况；第三层次是能掌握对手方向；第四层次是洞悉对手策略；第五层次是引导的对手行动！你们在那个层次？阅读全文

posted @ 2014-01-07 10:18 kobeshow 阅读(560) 评论(0) 推荐(0) 编辑

企业客户交易数据分析

摘要：可分为：1、商业行为分析；2、客户特征分析（行为习惯分析、产品意见）；3、客户忠诚分析；4、客户注意力分析（满意度、接触评价、咨询讨论等）；5、客户营销分析；6、客户收益率分析（对每一个客户的成本和收益进行分析，可以判断出哪些客户是为企业带来利润的）阅读全文

posted @ 2014-01-07 10:17 kobeshow 阅读(644) 评论(0) 推荐(0) 编辑

YYGamer->QQSearcher

机器学习、搜索、数据分析、广告、产品、运营

公告