11 2015 档案

摘要:一. 搜索引擎 组成部分: 1. 网络爬虫(web crawler) 2. 索引系统(indexing system) 3. 搜索系统 (searching system) consideration: 1.Economics 2.Scalability 3. Legal issue二. 网络爬虫(... 阅读全文
posted @ 2015-11-23 21:25 Yuki_i 阅读(379) 评论(0) 推荐(0)
摘要:什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小。聚类方法的分类如下图所示:一、如何计算样本之间的距离? 样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距... 阅读全文
posted @ 2015-11-04 00:56 Yuki_i 阅读(2277) 评论(0) 推荐(0)