摘要: 偶记,待丰富。。。-------------------社会媒体价值:加快了信息流动的速度;流动范围更广;随时随地、每个人,都有产生信息的权利;信息产生的影响,更不可控、不可预测,需用要生态的视角来看待、应对;在线用户的行为记录是潜在的分析数据,依据分析结果进行精细化运营;更丰富的信息有助于促进人们决策;更丰富的信息有助于促进人们做出正确的决策;开放的信息可以得到更多的反馈,具有自纠错功能;个人信息特征,行为轨迹特征、个人影响力的量化对个人认识的影响; 阅读全文
posted @ 2013-03-21 22:38 <无影人> 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 偶记,待丰富。。。-------------------计算机及互联网能改变的是:将简单的操作以极快的速度完成,所谓的科幻式的的人工智能现阶段是不存在的;能体现其价值的是这些操作的组合;要了解计算机、互联网自身可能性的边界,在于这些简单操作组合的涌现;只在原有基础上的某个环节添加计算机技术,与现实的结合,可以提升这种涌现结果的丰富程度; 阅读全文
posted @ 2013-03-21 00:27 <无影人> 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 公开的数据来源:http://www.datatang.com/数据堂的数据非常丰富,包括各种行业数据,电信,零售,金融,银行等等,特别适用于数据挖掘。UCI是最经典的,不过也比较古老http://archive.ics.uci.edu/ml/数据堂最近异军突起,非常值得称赞国外还有一些网站,比如http://mlcomp.org/,http://mldata.org/你可以看看另外KDDCUP每年都会针对一个特定的问题进行比赛,数据集也是公开的最近几年,数据挖掘的比赛越来越多了,你可以去PASCAL上看看你感兴趣的领域,自己搜索一下http://www.delicious.com/pskom 阅读全文
posted @ 2013-03-21 00:16 <无影人> 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 对这个话题好奇,网上找到些零零碎碎的东西夹杂个人看法,在这里积累,主要是围绕:如何获取数据:有一个10万-20万的样本库,每年给他们钱,在电脑上安装一个软件,可以监测他们所有的互联网使用行为;有样本库的第三方网站来帮你筛选样本;市场上有很多第三方的流量监控软件,也有很多公司使用这些软件,够购买他们的原始数据,作为分析使用;购买行业咨询报告、年鉴、权威书报;爬虫(开放平台API才是王道,爬数据仅在急需某些特殊数据,难以手工搞定的情况下才做。不适合用于生产环境,别人改一点点东西,你也得跟着改。就像和12306对搞的抢票插件一样,天天守着,比的就是精力。。);如何爬数据:就单纯的爬网页相当简单,只要 阅读全文
posted @ 2013-03-21 00:15 <无影人> 阅读(654) 评论(0) 推荐(0) 编辑