随笔列表第6页 - skyme

2015年3月5日

摘要：收集web日志的目的Web日志挖掘是指采用数据挖掘技术，对站点用户访问Web服务器过程中产生的日志数据进行分析处理，从而发现Web用户的访问模式和兴趣爱好等，这些信息对站点建设潜在有用的可理解的未知信息和知识，用于分析站点的被访问情况，辅助站点管理和决策支持等。1、以改进web站点设计为目标，通过挖... 阅读全文

posted @ 2015-03-05 15:57 skyme 阅读(8548) 评论(0) 推荐(1) 编辑

2015年3月3日

跟我一起数据挖掘（19）——什么是数据挖掘（2）

摘要：什么是数据仓库？数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理：①数据仓库用于支持决策,面向... 阅读全文

posted @ 2015-03-03 11:36 skyme 阅读(6510) 评论(1) 推荐(6) 编辑

2015年2月28日

跟我一起数据挖掘（18）——什么是数据挖掘（1）

摘要：什么是数据挖掘前两天看到群里有人问，什么是数据挖掘，现在就数据挖掘的概念做一下分析，并且尽量用大白话说一下数据挖掘到底是个啥东西，为啥大数据来了数据挖掘也火了（其实原来就挺火）。先看一上概念：数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowled... 阅读全文

posted @ 2015-02-28 15:32 skyme 阅读(4011) 评论(3) 推荐(3) 编辑

2015年2月23日

跟我一起数据挖掘（17）——分布式缓存

摘要：分布式缓存架构先看架构：图一用户通过访问http服务器，然后访问应用服务器资源，应用服务器调用后端的数据库，在第一次访问的时候，直接访问数据库，然后将要缓存的内容放入memcached集群，集群规模根据缓存文件的大小而定。在第二次访问的时候就直接进入缓存读取，不需要进行数据库的操作。这个适合数据变... 阅读全文

posted @ 2015-02-23 14:14 skyme 阅读(6405) 评论(1) 推荐(1) 编辑

2014年9月19日

jeechart

摘要：个人网站地址：http://blog.niubua.comjeechart（1）——普通的分页查询：http://blog.niubua.com/2014/09/18/jeechart（1）-普通的分页查询/jeechart（2）——无分页列表和图表demo ：http://blog.niubua... 阅读全文

posted @ 2014-09-19 10:08 skyme 阅读(1176) 评论(0) 推荐(0) 编辑

2014年2月24日

算法——贝叶斯

摘要：简介学过概率理论的人都知道条件概率的公式：P(AB)=P(A)P(B|A)=P(B)P(A|B)；即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式：P(B|A)=P(A|B)P(B)/P(A)；即,已知P(A|B)，P(A)和P(B)可以计算出P(B|A)。假设B是由相互独立的事件组成的概率空间{B1,b2，...bn}。则P(A)可以用全概率公式展开：P(A)=P （A|B1)P(B1)+P（A|B2)P(B2)+..P（A|Bn)P(Bn)。贝叶斯公式表示成：P(Bi|A)=P(A|Bi)P(Bi)/(P(A|B1)P(B1)+P( 阅读全文

posted @ 2014-02-24 14:03 skyme 阅读(92075) 评论(13) 推荐(24) 编辑

2014年2月9日

算法——递推算法

摘要：递推算法给定一个数的序列H0,H1,…,Hn,…若存在整数n0，使当n>n0时,可以用等号(或大于号、小于号)将Hn与其前面的某些项Hi(0f(2)-->f(1)-->f(0){f(0)=1}-->f(1)-->f(2)--f(3){f(3)=6} 而递推如下: f(0)-->f(1)-->f(2)-->f(3) 由此可见,递推的效率要高一些,在可能的情况下应尽量使用递推.但是递归作为比较基础的算法,它的作用不能忽视.所以,在把握这两种算法的时候应该特别注意。顺推法所谓顺推法是从已知条件出发，逐步推算出要解决的问题的方法叫顺推。如斐波拉契数列，阅读全文

posted @ 2014-02-09 20:33 skyme 阅读(20870) 评论(1) 推荐(4) 编辑

2013年12月5日

跟我一起云计算（5）——Shards

摘要：什么是shardingSharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库 (server)上，从而缓解单一数据库的性能问题。不太严格的讲，对于海量数据的数据库，如果是因为表多而数据多，这时候适合使用垂直切分，即把关系紧密（比如同一模块）的表切分出来放在一个server上。如果表并不多，但每张表的数据非常多，这时候适合水平切分，即把表的数据按某种规则（比如按ID 散列）切分到多个数据库(server)上。当然，现实中更多是这两种情况混杂在一起，这时候需要根据实际情况做出选择，也可能会综合使用垂直与水平切分，从而将原有数据库切分成类似矩阵一样可以无限扩充的数据库(server 阅读全文

posted @ 2013-12-05 16:15 skyme 阅读(7674) 评论(1) 推荐(6) 编辑

2013年12月4日

跟我一起云计算（4）——lucene

摘要：了解lucene的基本概念这一部分可以参考我以前写的博客：http://www.cnblogs.com/skyme/tag/lucene/lucene是什么下图是一个很好的说明：1、lucene是构建索引、查询、高亮、拼写检查的类库。2、它不是一个爬虫。3、不提供分布式的索引。lucene全文搜索处理流程lucene的索引和查询这是用4.6版本构建的lucene构建索引和查询的示例：public static void main(String[] args) throws IOException, ParseException { // 一、创建索引 // 内存索引... 阅读全文

posted @ 2013-12-04 15:45 skyme 阅读(4350) 评论(11) 推荐(3) 编辑

2013年11月24日

跟我一起云计算（3）——hbase

摘要： hbaseHBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。hadoop家族hadoop家族成员：Hadoop Common Hadoop体系最底层阅读全文

posted @ 2013-11-24 21:38 skyme 阅读(3624) 评论(0) 推荐(11) 编辑

cloudsky

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289

公告

cloudsky

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522 大数据_人工智能交流621943289

公告

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289