上一页 1 2 3 4 5 6 7 8 9 10 ··· 29 下一页
摘要: 收集web日志的目的Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。1、以改进web站点设计为目标,通过挖... 阅读全文
posted @ 2015-03-05 15:57 skyme 阅读(8548) 评论(0) 推荐(1) 编辑
摘要: 什么是数据仓库?数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理:①数据仓库用于支持决策,面向... 阅读全文
posted @ 2015-03-03 11:36 skyme 阅读(6510) 评论(1) 推荐(6) 编辑
摘要: 什么是数据挖掘前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。先看一上概念:数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowled... 阅读全文
posted @ 2015-02-28 15:32 skyme 阅读(4011) 评论(3) 推荐(3) 编辑
摘要: 分布式缓存架构先看架构: 图一用户通过访问http服务器,然后访问应用服务器资源,应用服务器调用后端的数据库,在第一次访问的时候,直接访问数据库,然后将要缓存的内容放入memcached集群,集群规模根据缓存文件的大小而定。在第二次访问的时候就直接进入缓存读取,不需要进行数据库的操作。这个适合数据变... 阅读全文
posted @ 2015-02-23 14:14 skyme 阅读(6405) 评论(1) 推荐(1) 编辑
摘要: 个人网站地址:http://blog.niubua.comjeechart(1)——普通的分页查询 :http://blog.niubua.com/2014/09/18/jeechart(1)-普通的分页查询/jeechart(2)——无分页列表和图表demo :http://blog.niubua... 阅读全文
posted @ 2014-09-19 10:08 skyme 阅读(1176) 评论(0) 推荐(0) 编辑
摘要: 简介学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B)可以计算出P(B|A)。假设B是由相互独立的事件组成的概率空间{B1,b2,...bn}。则P(A)可以用全概率公式展开:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)。贝叶斯公式表示成:P(Bi|A)=P(A|Bi)P(Bi)/(P(A|B1)P(B1)+P( 阅读全文
posted @ 2014-02-24 14:03 skyme 阅读(92075) 评论(13) 推荐(24) 编辑
摘要: 递推算法给定一个数的序列H0,H1,…,Hn,…若存在整数n0,使当n>n0时,可以用等号(或大于号、小于号)将Hn与其前面的某些项Hi(0f(2)-->f(1)-->f(0){f(0)=1}-->f(1)-->f(2)--f(3){f(3)=6} 而递推如下: f(0)-->f(1)-->f(2)-->f(3) 由此可见,递推的效率要高一些,在可能的情况下应尽量使用递推.但是递归作为比较基础的算法,它的作用不能忽视.所以,在把握这两种算法的时候应该特别注意。顺推法所谓顺推法是从已知条件出发,逐步推算出要解决的问题的方法叫顺推。 如斐波拉契数列, 阅读全文
posted @ 2014-02-09 20:33 skyme 阅读(20870) 评论(1) 推荐(4) 编辑
摘要: 什么是shardingSharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库 (server)上,从而缓解单一数据库的性能问题。不太严格的讲,对于海量数据的数据库,如果是因为表多而数据多,这时候适合使用垂直切分,即把关系紧密(比如同一模块)的表切分出来放在一个server上。如果表并不多,但每张表的数据非常多,这时候适合水平切分,即把表的数据按某种规则(比如按ID 散列)切分到多个数据库(server)上。当然,现实中更多是这两种情况混杂在一起,这时候需要根据实际情况做出选择,也可能会综合使用垂直与水平切分,从而将原有数据库切分成类似矩阵一样可以无限扩充的数据库(server 阅读全文
posted @ 2013-12-05 16:15 skyme 阅读(7674) 评论(1) 推荐(6) 编辑
摘要: 了解lucene的基本概念这一部分可以参考我以前写的博客:http://www.cnblogs.com/skyme/tag/lucene/lucene是什么下图是一个很好的说明:1、lucene是构建索引、查询、高亮、拼写检查的类库。2、它不是一个爬虫。3、不提供分布式的索引。lucene全文搜索处理流程lucene的索引和查询这是用4.6版本构建的lucene构建索引和查询的示例:public static void main(String[] args) throws IOException, ParseException { // 一、创建索引 // 内存索引... 阅读全文
posted @ 2013-12-04 15:45 skyme 阅读(4350) 评论(11) 推荐(3) 编辑
摘要: hbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。hadoop家族hadoop家族成员:Hadoop Common Hadoop体系最底层 阅读全文
posted @ 2013-11-24 21:38 skyme 阅读(3624) 评论(0) 推荐(11) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 29 下一页