代码改变世界

随笔分类 -  Data Mining

mongoDB是什么?又吸引我的注意力了

2011-07-02 15:36 by Aga.J, 6877 阅读, 收藏,
摘要: 这阵子mongoDB炒得很火啊,大家都在学,我也来凑凑热闹了解了解那是什么东西。 首先当然是维基百科啦,看看介绍先。。。 http://en.wikipedia.org/wiki/MongoDB(下面是我的翻译) MongoDB是一个开源的,高性能,无模式(或者说是模式自由),使用C++语言编写的面向文档的数据库。正因为MongoDB是面向文档的,所以它可以管理类似JSON的文档集合。又因为数据可以被嵌套到复杂的体系中并保持可以查询可索引,这样一来,应用程序便可以以一种更加自然的方式来为数据建模。 下面介绍MongoDB的特点: 1 统一的UTF-8编码 不是UTF-8编码集合的数据也可以通. 阅读全文

数据挖掘:概念与技术 学习笔记 第一章

2011-06-08 21:33 by Aga.J, 3401 阅读, 收藏,
摘要: 1 数据挖掘进化过程:数据收集和数据库创建 ---- 数据管理(数据存储,提取,事务处理) --- 数据分析与理解(数据仓库和数据挖掘)可以使用分层的结构来表示这个进化过程(下层使用上层服务):2 海量数据 需要 数据挖掘工具进行数据分析, 发现重要的数据模式3 知识发现的过程:(1)数据清理(消除噪音或者不一致的数据)(2)数据集成(多种数据源组合一起)(3)数据选择(从数据库中提取和分析任务相关的数据)(4)数据变换(将数据变换成统一的适合挖掘的形式)(5)数据挖掘(使用智能方法提取数据模式)(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)(7)知识表示(可视化知识表示) 阅读全文

搜索引擎概要认识

2011-05-12 20:46 by Aga.J, 323 阅读, 收藏,
摘要: 1 搜索引擎是一种在Web上应用的软件系统,以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。2 搜索引擎提供信息查询服务的时候,面对的只是查询词,但是每个用户关心的是和这个查询词相关的不同方面的信息,所以搜索引擎应该争取不要漏掉任何相关的信息,把用户最关系的信息排在搜索结果的列表最前。3 搜索引擎需要解决大规模并发的用户事件。4 搜索引擎实际上需要自己先对网络上的网页进行搜索爬取,存放到自己的数据库服务器中,当用户提交搜索请求时,搜索引擎从系统内部进行搜索,获取必要的信息,返回url列表,而用户这时候点击的url,访问的才是网页的原始出处。5 以w 阅读全文

Web搜索引擎工作原理和体系结构

2011-05-12 20:46 by Aga.J, 3097 阅读, 收藏,
摘要: 1 现代大规模高质量搜索引擎一般采用三段式工作流程: 搜集 --- 预处理 --- 服务 2 搜集:在具体搜集过程中,如果抓取一篇篇的网页,也可以有不同的考虑。最常见的一种是所谓的“爬取”:将Web上的网页集合看成是一个有向图,搜集过程从给定的起始URL集合S开始,沿着网页中的链接,按照先深,先宽,或者某种策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入到集合S,继续抓取直到S为空。3 搜集:搜集到的网页应该是相对比较重要的,所以在不可能将web上的网页搜集完全的情况下,使用先宽搜索方式要比先深搜索得到的网页集合重要, 阅读全文