随笔分类 - 

关于云的理解和分析
摘要:广义和狭义的区块链广义来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本(分布式数据库)。... 阅读全文
posted @ 2018-04-04 15:36 skyme 阅读(3336) 评论(2) 推荐(15) 编辑
摘要:本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋势识别。在本篇博客帖中,你将会学习到如何将机器学习技术应用到文本挖掘中。我将会向你展示如何使用Rap... 阅读全文
posted @ 2015-07-15 18:39 skyme 阅读(2540) 评论(0) 推荐(0) 编辑
摘要:讨论内容昨天的架构基本确定成如下图所示:针对此架构,大家分别提了不同的看法:【大侠】秦刘 9:53:58 工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大侠】秦刘 9:54:38 webapp的作用应该只是这个 【大侠】大常 9:55:11 这个是什么的... 阅读全文
posted @ 2015-03-27 14:35 skyme 阅读(2190) 评论(0) 推荐(0) 编辑
摘要:SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构:依赖关系如下:webmagicwebmagic采用完全模块化的设计,功... 阅读全文
posted @ 2015-03-26 19:13 skyme 阅读(15843) 评论(1) 推荐(4) 编辑
摘要:什么是RedisRedis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Memcached和... 阅读全文
posted @ 2015-03-08 11:31 skyme 阅读(3144) 评论(0) 推荐(1) 编辑
摘要:收集web日志的目的Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。1、以改进web站点设计为目标,通过挖... 阅读全文
posted @ 2015-03-05 15:57 skyme 阅读(8551) 评论(0) 推荐(1) 编辑
摘要:什么是数据仓库?数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理:①数据仓库用于支持决策,面向... 阅读全文
posted @ 2015-03-03 11:36 skyme 阅读(6511) 评论(1) 推荐(6) 编辑
摘要:什么是数据挖掘前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。先看一上概念:数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowled... 阅读全文
posted @ 2015-02-28 15:32 skyme 阅读(4011) 评论(3) 推荐(3) 编辑
摘要:分布式缓存架构先看架构: 图一用户通过访问http服务器,然后访问应用服务器资源,应用服务器调用后端的数据库,在第一次访问的时候,直接访问数据库,然后将要缓存的内容放入memcached集群,集群规模根据缓存文件的大小而定。在第二次访问的时候就直接进入缓存读取,不需要进行数据库的操作。这个适合数据变... 阅读全文
posted @ 2015-02-23 14:14 skyme 阅读(6406) 评论(1) 推荐(1) 编辑
摘要:简介学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B)可以计算出P(B|A)。假设B是由相互独立的事件组成的概率空间{B1,b2,...bn}。则P(A)可以用全概率公式展开:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)。贝叶斯公式表示成:P(Bi|A)=P(A|Bi)P(Bi)/(P(A|B1)P(B1)+P( 阅读全文
posted @ 2014-02-24 14:03 skyme 阅读(92110) 评论(13) 推荐(24) 编辑
摘要:什么是shardingSharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库 (server)上,从而缓解单一数据库的性能问题。不太严格的讲,对于海量数据的数据库,如果是因为表多而数据多,这时候适合使用垂直切分,即把关系紧密(比如同一模块)的表切分出来放在一个server上。如果表并不多,但每张表的数据非常多,这时候适合水平切分,即把表的数据按某种规则(比如按ID 散列)切分到多个数据库(server)上。当然,现实中更多是这两种情况混杂在一起,这时候需要根据实际情况做出选择,也可能会综合使用垂直与水平切分,从而将原有数据库切分成类似矩阵一样可以无限扩充的数据库(server 阅读全文
posted @ 2013-12-05 16:15 skyme 阅读(7678) 评论(1) 推荐(6) 编辑
摘要:了解lucene的基本概念这一部分可以参考我以前写的博客:http://www.cnblogs.com/skyme/tag/lucene/lucene是什么下图是一个很好的说明:1、lucene是构建索引、查询、高亮、拼写检查的类库。2、它不是一个爬虫。3、不提供分布式的索引。lucene全文搜索处理流程lucene的索引和查询这是用4.6版本构建的lucene构建索引和查询的示例:public static void main(String[] args) throws IOException, ParseException { // 一、创建索引 // 内存索引... 阅读全文
posted @ 2013-12-04 15:45 skyme 阅读(4351) 评论(11) 推荐(3) 编辑
摘要:hbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。hadoop家族hadoop家族成员:Hadoop Common Hadoop体系最底层 阅读全文
posted @ 2013-11-24 21:38 skyme 阅读(3624) 评论(0) 推荐(11) 编辑
摘要:介绍Open API即开放API,也称开放平台。 所谓的开放API(OpenAPI)是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成一系列API(Application Programming Interface,应用编程接口)开放出去,供第三方开发者使用,这种行为就叫做开放网站的API,所开放的API就被称作OpenAPI(开放API)。开放平台分类根据开放层级划分,开放平台主要分为四层,即“硬件”层、系统层、业务层和应用层。其中,业务层开放和应用层开放是更加贴近互联网层面的开放方式。根据开放技术划分,可将开放平台划分为五种类型:OpenAPI 型开放平台、插件式开放平台、综合 阅读全文
posted @ 2013-11-21 14:52 skyme 阅读(6949) 评论(1) 推荐(4) 编辑
摘要:概述最近要做一个实时分析的项目,所以需要深入一下storm。为什么storm综合下来,有以下几点:1. 生逢其时MapReduce 计算模型打开了分布式计算的另一扇大门,极大的降低了实现分布式计算的门槛。有了MapReduce架构的支持,开发者只需要把注意力集中在如何使用 MapReduce的语义来解决具体的业务逻辑,而不用头疼诸如容错,可扩展性,可靠性等一系列硬骨头。一时间,人们拿着MapReduce这把榔头去敲 各种各样的钉子,自然而然的也试图用MapReduce计算模型来解决流处理想要解决的问题。各种失败的尝试之后,人们意识到,改良MapReduce并 不能使之适应于流处理的场景,必须发 阅读全文
posted @ 2013-11-14 18:13 skyme 阅读(5338) 评论(0) 推荐(3) 编辑
摘要:软件下载Oracle Big Data Connectors:ODCH下载地址:http://www.oracle.com/technetwork/bdc/big-data-connectors/downloads/index.htmlJave SE 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk6u38-downloads-1877406.htmlOracle11g下载地址:Oracle Enterprise Linux下载地址:需要注册oracle帐号才能下载:https://edelivery.oracle 阅读全文
posted @ 2013-08-19 15:41 skyme 阅读(2711) 评论(0) 推荐(0) 编辑
摘要:UIucloudstack采用的是前后端分离的架构,就是说前端可以选择使用web、swing甚至其它的界面,都可以。我们来看cloudstack的UI信息吧,所有的cloudstack的UI都在{cloudstack_home}/cloudstack/ui目录下。用firefox打开工程,打开firebug,找到login.js,在100行加上断点。执行登录,这时就会触发断点,让我们看看发生了什么:最终是使用jquery的ajax来提交post请求给服务器端,也就是说,manager server提供给我们的是一组API,我们可以通过http的请求方式提交请求。处理http请求看完了前端,我们 阅读全文
posted @ 2013-08-18 13:54 skyme 阅读(3682) 评论(7) 推荐(0) 编辑
摘要:调试环境ubuntu 12.04JDK1.7apache-maven-3.10eclipse 4.2 Junomysql 5源码下载及调试上面的几个软件在上一篇中已经介绍了。在新的版本中,整个的编译和调试过程都是基于maven的,而且整个工程的结构也有所变化。更新git:sudo apt-get install git-core安装maven,确认安装的是maven 3sudo apt-get install mavenskyme@skyme-virtual-machine:~$ mvn -versionApache Maven 3.1.0 (893ca28a1da9d5f51ac03827a 阅读全文
posted @ 2013-08-08 21:48 skyme 阅读(3855) 评论(16) 推荐(5) 编辑
摘要:调试环境ubuntu 12.04JDK1.7apache-maven-3.10eclipse 4.2 Junomysql 5apache antJDK的配置和安装安装可以参考:http://my.oschina.net/jamesju/blog/94916我是安装在~//java/jdk1.7.0_21下,执行java -version可以看到当前的JDK版本。Maven的配置和安装安装可以参考:http://blog.csdn.net/sin90lzc/article/details/7429620Eclipse及插件安装到eclipse官网下载4.2或者最新的4.3版本的eclipse.下 阅读全文
posted @ 2013-08-03 22:32 skyme 阅读(3547) 评论(1) 推荐(1) 编辑
摘要:虚拟化的几种方式完全虚拟化:半虚拟化:硬件辅助虚拟化:详细的内容可以看:http://pan.baidu.com/share/link?shareid=4134188256&uk=271407xen虚拟化及工作原理:http://www.cnblogs.com/BloodAndBone/archive/2010/11/02/1866907.html运维人员更想看:http://linux.vbird.org/linux_enterprise/xen.php虚拟化第三方管理工具比较:http://pan.baidu.com/share/link?shareid=4239722708&am 阅读全文
posted @ 2013-07-29 15:21 skyme 阅读(4318) 评论(0) 推荐(0) 编辑