Data Mining - 随笔分类 - Aga.J

mongoDB是什么？又吸引我的注意力了

2011-07-02 15:36 by Aga.J, 6888 阅读, 收藏,

摘要：这阵子mongoDB炒得很火啊，大家都在学，我也来凑凑热闹了解了解那是什么东西。首先当然是维基百科啦，看看介绍先。。。 http://en.wikipedia.org/wiki/MongoDB（下面是我的翻译） MongoDB是一个开源的，高性能，无模式（或者说是模式自由），使用C++语言编写的面向文档的数据库。正因为MongoDB是面向文档的，所以它可以管理类似JSON的文档集合。又因为数据可以被嵌套到复杂的体系中并保持可以查询可索引，这样一来，应用程序便可以以一种更加自然的方式来为数据建模。下面介绍MongoDB的特点： 1 统一的UTF-8编码不是UTF-8编码集合的数据也可以通. 阅读全文

16 Comment

数据挖掘：概念与技术学习笔记第一章

2011-06-08 21:33 by Aga.J, 3406 阅读, 收藏,

摘要： 1 数据挖掘进化过程：数据收集和数据库创建 ---- 数据管理（数据存储，提取，事务处理） --- 数据分析与理解（数据仓库和数据挖掘）可以使用分层的结构来表示这个进化过程（下层使用上层服务）：2 海量数据需要数据挖掘工具进行数据分析，发现重要的数据模式3 知识发现的过程：（1）数据清理（消除噪音或者不一致的数据）（2）数据集成（多种数据源组合一起）（3）数据选择（从数据库中提取和分析任务相关的数据）（4）数据变换（将数据变换成统一的适合挖掘的形式）（5）数据挖掘（使用智能方法提取数据模式）（6）模式评估（根据某种兴趣度度量，识别提供知识的真正有趣的模式）（7）知识表示（可视化知识表示）阅读全文

0 Comment

搜索引擎概要认识

2011-05-12 20:46 by Aga.J, 323 阅读, 收藏,

摘要： 1 搜索引擎是一种在Web上应用的软件系统，以一定的策略在Web上搜集和发现信息，在对信息进行处理和组织后，为用户提供Web信息查询服务。2 搜索引擎提供信息查询服务的时候，面对的只是查询词，但是每个用户关心的是和这个查询词相关的不同方面的信息，所以搜索引擎应该争取不要漏掉任何相关的信息，把用户最关系的信息排在搜索结果的列表最前。3 搜索引擎需要解决大规模并发的用户事件。4 搜索引擎实际上需要自己先对网络上的网页进行搜索爬取，存放到自己的数据库服务器中，当用户提交搜索请求时，搜索引擎从系统内部进行搜索，获取必要的信息，返回url列表，而用户这时候点击的url，访问的才是网页的原始出处。5 以w 阅读全文

0 Comment

Web搜索引擎工作原理和体系结构

2011-05-12 20:46 by Aga.J, 3114 阅读, 收藏,

摘要： 1 现代大规模高质量搜索引擎一般采用三段式工作流程：搜集 --- 预处理 --- 服务 2 搜集：在具体搜集过程中，如果抓取一篇篇的网页，也可以有不同的考虑。最常见的一种是所谓的“爬取”：将Web上的网页集合看成是一个有向图，搜集过程从给定的起始URL集合S开始，沿着网页中的链接，按照先深，先宽，或者某种策略遍历，不停的从S中移除URL，下载相应的网页，解析出网页中的超链接URL，看是否已经被访问过，将未访问过的那些URL加入到集合S，继续抓取直到S为空。3 搜集：搜集到的网页应该是相对比较重要的，所以在不可能将web上的网页搜集完全的情况下，使用先宽搜索方式要比先深搜索得到的网页集合重要，阅读全文

0 Comment

Aga.J 键盘，琴盘，指尖，狂弹

随笔分类 - Data Mining

mongoDB是什么？又吸引我的注意力了

数据挖掘：概念与技术学习笔记第一章

搜索引擎概要认识

Web搜索引擎工作原理和体系结构

About

Aga.J 键盘，琴盘，指尖，狂弹

随笔分类 - Data Mining

mongoDB是什么？又吸引我的注意力了

数据挖掘：概念与技术 学习笔记 第一章

搜索引擎概要认识

Web搜索引擎工作原理和体系结构

About

数据挖掘：概念与技术学习笔记第一章