懒惰啊我 - 博客园

2015年1月

摘要：作为一个推荐系统业余爱好者，在机器学习领域的鄙视链中，我感觉一直地位不高，时常被搞NLP CV语音等高科技技术的朋友鄙视。最近甚至被人问，推荐算法开源包多如牛毛，我们为什么还要专门的推荐算法工程师？（难道想要辞退我！？惊）不得不说，我想吐槽这个观点很久了。事实上搞推荐的工作不等于 import IB... 阅读全文

posted @ 2015-01-08 18:40 懒惰啊我阅读(33324) 评论(16) 推荐(26)

2013年3月

自己动手写一个推荐系统

摘要：废话：最近朋友在学习推荐系统相关，说是实现完整的推荐系统，于是我们三不之一会有一些讨论和推导，想想索性整理出来。在文中主要以工程中做推荐系统的流程着手，穿插一些经验之谈，并对于推荐系统的算法的学术界最新的研究进展和流派作一些介绍。当然由于我做推荐系统之时还年幼，可能有很多偏颇甚至错误的见解，就当抛砖引玉，还请各位大大指点。Readinglists虽然很多人觉得作为AI的分支之一，推荐跟自然语言处理等问题的难度不可同日而语。但所谓磨刀不误砍柴工，我觉得，至少在开工前先应该阅读这样基本书，起码要看看目录，以对于推荐系统有个初步的了解。中文书籍：1.《推荐系统实践》项亮http://book.dou 阅读全文

posted @ 2013-03-03 12:53 懒惰啊我阅读(43641) 评论(19) 推荐(10)

2012年12月

Weka中BP神经网络的实践（参数调整以及结果分析）

摘要：废话：周日讲了下神经网络，本来想的是以理论和实践相结合，前面讲讲神经网络，后面简单讲下在weka中怎么使用BP神经网络，可惜最后时间不够，而且姥姥的兴趣点跑到凸优化那里去了，所以没有讲成实践的部分，有点郁闷的。为了不浪费了，就把这部分讲稿拿出来和大家分享一下，也希望对大家实践神经网络有所帮助。因为是讲稿，讲的要比写的多，所以很多地方口语化和省略比较严重，大家凑合着看吧。实践部分讲稿正文： Weka是什么？ Weka是由新西兰怀卡托大学用Java开发的数据挖掘常用软件，Weka是怀卡托智能分析系统的缩写。Weka限制在GNU通用公众证书的条件下发布，它几乎可以运行在所有操作系统平台上，包括Li 阅读全文

posted @ 2012-12-26 09:41 懒惰啊我阅读(23826) 评论(4) 推荐(4)

谷歌中的数据挖掘应用->statisticians都在google干嘛

摘要：有博客园上的朋友问“领域目前的从业情况”@疯狂的小风各位大大如果有恰好是在公司任职做数据挖掘的，也请不吝分享下自己的工作，大家也可以交流下数据挖掘在业内的从业情况。我先抛砖引玉下，在以前公司主要是做一些recommend system的搭建，主要包括各种分类用户数据的抓取与过滤，调整算法参数和结果的一些指标评测以及其可视化；还有就是关于spam user的detect。前几天接到EMC2的电话，发现他们也是做数据挖掘的，毕竟是号称大数据的公司，不过具体干嘛没问，说是以后再联系。百度的数据挖掘应用则多如牛毛，做数据挖掘的进去了不愁找不到坑坐。淘宝的数据挖掘部门也是众所周知的数据魔方，里面大概分了阅读全文

posted @ 2012-12-23 01:47 懒惰啊我阅读(3878) 评论(10) 推荐(0)

漫谈数据挖掘从入门到进阶

摘要：做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。阅读全文

posted @ 2012-12-22 18:27 懒惰啊我阅读(18540) 评论(31) 推荐(15)

直觉引向误区《如果你是人人网的流量分析产品经理，如何解释 7 月 1 日到 7 月 7 日人人网的总流量以每日 5% 的幅度下滑？》感想

摘要：博主自身水平有限原博客写的非常好我也收益匪浅而且订阅了只是发表一些观点作抛砖引玉欢迎不同意见的大家一起交流刚看了《如果你是人人网的流量分析产品经理，如何解释 7 月 1 日到 7 月 7 日人人网的总流量以每日 5% 的幅度下滑？》这篇博客http://piaolin.sinaapp.com/?p=28原博主觉得“在一瞬间给出直觉的答案：因为人人网主要的用户是学生，而7月初可能是考试或者放暑假回家的日子。这样的产品经理难能可贵。”其实我觉得能在一瞬间给出直觉的答案并不是那么的可贵因为有的时候很多问题的原因可能是混杂的而且是多方面的充满了外部因素的在《思考快与慢》这本书就给出了直觉阅读全文

posted @ 2012-12-12 16:55 懒惰啊我阅读(872) 评论(1) 推荐(1)

2012年11月

CRISP-DM数据挖掘标准化流程简析[一] project understanding部分(guide to Intelligent data analysis学习笔记)

摘要： ps：由于篇幅问题，这篇博客主要介绍数据挖掘标准化流程中的project understanding问题，剩下的5个方面，特别是modeling等涉及具体算法的部分会在后续的博客中以结合orange和knime等开源软件或者是一些python小程序的形式写下去本文的一部分是翻译，有的部分是自己做数据挖掘项目时候的一些小的心得，也不见得正确，仅作抛砖引玉之用。如果需要相关的书籍电子版的也可以联系我flclain@gmail.com关于数据挖掘的标准化流程有大体有如下几种：SEMMA(sample,explore,modify,model,assessusedbySASInstituteInc）C 阅读全文

posted @ 2012-11-23 21:41 懒惰啊我阅读(4315) 评论(0) 推荐(1)

数据挖掘和统计学的区别（guide to Intelligent data analysis学习笔记）

摘要：提到数据挖掘时，我们往往着重于建模时的算法而忽视其他步骤，而在realworld的数据挖掘项目中，其他步骤则是决定项目成败的关键。《guidetointelligentdataanalysis》这本书是knime官网推荐的书籍（http://tech.knime.org/guide-to-intelligent-data-analysis），按照CRISP-DM的流程讲述了数据挖掘流程的过程。我们先从什么是数据挖掘入手。要理解什么是数据挖掘，首先需要区分的是便是data和knowledge。我们对比data和knowledge的特征：DataKnowledge涉及到的是单个的实例（单个的事物，阅读全文

posted @ 2012-11-23 17:44 懒惰啊我阅读(4238) 评论(6) 推荐(0)

摘要：简介：最近大家十分关注美国大选，其中说的很火热的一点便是利用数据挖掘对于大选进行政治动员。刚好最近nature上有一篇名为A 61-million-person experiment in social influence and political mobilization文章就是讲的一个在上届美国大选时利用facebook上的实验数据对于政治动员和社交影响的分析。于是也学习了下。本文主要分为两个部分，第一部分为对于这篇paper的在学习中的简要翻译和记录。第二部分为自己的一点简要心得。翻译和记录：A61-million-personexperimentinsocialinfluen.. 阅读全文

posted @ 2012-11-13 13:49 懒惰啊我阅读(1866) 评论(1) 推荐(2)

公告