摘要: 产品是做出来给别人用的,产品又是别人设计的。用户是一个个具体的人,用户又是个模糊的整体。概念是知识学习的过程,真理是充满张力的对立。说与做永远都不一个层面上。 阅读全文
posted @ 2013-04-30 17:14 <无影人> 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 偶记,待丰富。。。-------------------社会媒体价值:加快了信息流动的速度;流动范围更广;随时随地、每个人,都有产生信息的权利;信息产生的影响,更不可控、不可预测,需用要生态的视角来看待、应对;在线用户的行为记录是潜在的分析数据,依据分析结果进行精细化运营;更丰富的信息有助于促进人们决策;更丰富的信息有助于促进人们做出正确的决策;开放的信息可以得到更多的反馈,具有自纠错功能;个人信息特征,行为轨迹特征、个人影响力的量化对个人认识的影响; 阅读全文
posted @ 2013-03-21 22:38 <无影人> 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 偶记,待丰富。。。-------------------计算机及互联网能改变的是:将简单的操作以极快的速度完成,所谓的科幻式的的人工智能现阶段是不存在的;能体现其价值的是这些操作的组合;要了解计算机、互联网自身可能性的边界,在于这些简单操作组合的涌现;只在原有基础上的某个环节添加计算机技术,与现实的结合,可以提升这种涌现结果的丰富程度; 阅读全文
posted @ 2013-03-21 00:27 <无影人> 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 公开的数据来源:http://www.datatang.com/数据堂的数据非常丰富,包括各种行业数据,电信,零售,金融,银行等等,特别适用于数据挖掘。UCI是最经典的,不过也比较古老http://archive.ics.uci.edu/ml/数据堂最近异军突起,非常值得称赞国外还有一些网站,比如http://mlcomp.org/,http://mldata.org/你可以看看另外KDDCUP每年都会针对一个特定的问题进行比赛,数据集也是公开的最近几年,数据挖掘的比赛越来越多了,你可以去PASCAL上看看你感兴趣的领域,自己搜索一下http://www.delicious.com/pskom 阅读全文
posted @ 2013-03-21 00:16 <无影人> 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 对这个话题好奇,网上找到些零零碎碎的东西夹杂个人看法,在这里积累,主要是围绕:如何获取数据:有一个10万-20万的样本库,每年给他们钱,在电脑上安装一个软件,可以监测他们所有的互联网使用行为;有样本库的第三方网站来帮你筛选样本;市场上有很多第三方的流量监控软件,也有很多公司使用这些软件,够购买他们的原始数据,作为分析使用;购买行业咨询报告、年鉴、权威书报;爬虫(开放平台API才是王道,爬数据仅在急需某些特殊数据,难以手工搞定的情况下才做。不适合用于生产环境,别人改一点点东西,你也得跟着改。就像和12306对搞的抢票插件一样,天天守着,比的就是精力。。);如何爬数据:就单纯的爬网页相当简单,只要 阅读全文
posted @ 2013-03-21 00:15 <无影人> 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 二进制最基本的单位是“位(bit)”,指令与数据均以二进制的形式存在与内存之中,对于机器而言数据和指令并无二致。二进制的数据好理解,先看看指令。1.CPU智商极低却以速度取胜大量短小而重复的指令有机结合便可以无所不能。CPU自身只能处理极简单的3类指令:将某一个地址中存储的字节转移到另外一个地址处;将位于两个地址处的内容相加并将结果存入某个地址处;判断位于某地指处的字节是否为零;2.CPU存储器的操作实体有两个一般编程语言无法直接操纵寄存器:编译器,称寄存器库或寄存器组:通用寄存器(数据寄存器、变址寄存器、指针寄存器)、专用寄存器(程序状态寄存器、指令指针EIP)、段寄存器(代码段、数据段、堆 阅读全文
posted @ 2013-03-19 00:06 <无影人> 阅读(334) 评论(0) 推荐(0) 编辑
摘要: Request 消息结构:Response消息结构:请求方法:一个URL地址用于描述一个网络上的资源,而HTTP中的GET, POST, PUT, DELETE就对应着对这个资源的查,改,增,删4个操作。 其中最常见的就是GET和POST了。GET一般用于获取/查询资源信息;而POST一般用于更新资源信息。以下是二者的区别:GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连,如EditPosts.aspx?name=test1&id=123456; POST方法是把提交的数据放在HTTP包的Body中;GET提交的数据大小有限制(因为浏览器对URL的长 阅读全文
posted @ 2013-03-16 21:28 <无影人> 阅读(374) 评论(0) 推荐(0) 编辑
摘要: url的基本格式为:schema://host[:port#]/path/.../[;url-params][?query-string][#anchor]schema:指定地层使用的协议;host:HTTP服务器的IP地址或者域名;port#:HTTP服务器的端口,默认是的80时可省略;path:访问资源的路径;url params:参数;query string:发送给http服务器的数据;#anchor:锚;举例:http://www.mywebsite.com/sj/test;id=8079?name=sviergn&x=true#stuffSchema: httphost: 阅读全文
posted @ 2013-03-16 19:47 <无影人> 阅读(223) 评论(0) 推荐(0) 编辑
摘要: rough set 理论可用于处理不完整数据和不精确的知识。使用方法通常包括以下几个步骤:选择数据源,建立决策表:明确条件属性集和决策属性集,将其转化为二维决策表;数据预处理:删除重复记录、决策表补齐、连续数据的离散化;属性简约;属性值简约;知识获取。 阅读全文
posted @ 2013-03-12 23:05 <无影人> 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 因特网具有小世界特性、无尺度特性、鲁棒性和脆弱性并存等复杂系统的特性。将构成复杂系统的个体抽象成节点,把个体之间的节点抽象成节点之间的边,则复杂系统就可以抽象成一个复杂网络,可以用一些特定参数来定量分析,如平均路径长度(average path length)、聚类系数(clustering coefficient)、度分布(degree distribution)等,可用小世界(small word)、无尺度(scale-free,又称无标度)网络等模型描述。 阅读全文
posted @ 2013-03-12 22:20 <无影人> 阅读(489) 评论(0) 推荐(0) 编辑