上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 28 下一页
摘要: 一些看似简单的数据操作,当作用于海量数据集时,就会出现“意料之外,却在情理之中”的问题,海量数据操作,需要采用特殊方法,才能“曲径通幽”。在删除海量数据时,需要注意日志的增长,索引碎片的增加和数据库的恢复模式,特别是利用大容量日志操作,来减少日志的增长和提高数据插入的速度。对于大数据去重,通过一些小 阅读全文
posted @ 2017-06-19 14:05 悦光阴 阅读(12753) 评论(18) 推荐(21) 编辑
摘要: 在初始化Reporting Service时,SSRS会自动创建数据库[ReportServer],用于存储报表元数据,报表订阅,以及凭证(Credential)和连接信息等身份验证信息,身份验证数据非常重要,为了保护敏感数据,Reporting Service支持对称性密钥(Symmetric k 阅读全文
posted @ 2017-06-12 10:46 悦光阴 阅读(1689) 评论(0) 推荐(1) 编辑
摘要: SSISDB 系列随笔汇总: SSISDB1:使用SSISDB管理Package SSISDB2:SSIS工程的操作实例 SSISDB3:Package的执行实例 SSISDB4:当前正在运行的Package及其Executable SSISDB5:使用TSQL脚本执行Package SSISDB6 阅读全文
posted @ 2017-06-09 15:48 悦光阴 阅读(1673) 评论(0) 推荐(5) 编辑
摘要: 相比图形数据的查询,Neo4j更新图形数据的速度较慢,通常情况下,Neo4j更新数据的工作流程是:每次数据更新都会执行一次数据库连接,打开一个事务,在事务中更新数据。当数据量非常大时,这种做法非常耗时,大多数时间耗费在连接数据库和打开事务上,高效的做法是利用Neo4j提供的参数(Parameter) 阅读全文
posted @ 2017-06-01 10:46 悦光阴 阅读(19929) 评论(1) 推荐(8) 编辑
摘要: 本文使用的IDE是Visual Studio 2015 ,驱动程序是Neo4j官方的最新版本:Neo4j.Driver ,创建的类库工程(Project)要求安装 .NET Framework 4.5.2及以上版本,Neo4j官方提供的驱动程序使用起来非常简单,非常依赖于Cypher语言,这使得该驱 阅读全文
posted @ 2017-05-26 10:02 悦光阴 阅读(9783) 评论(2) 推荐(7) 编辑
摘要: Neo4j使用Cypher查询图形数据,Cypher是描述性的图形查询语言,语法简单,功能强大,由于Neo4j在图形数据库家族中处于绝对领先的地位,拥有众多的用户基数,使得Cypher成为图形查询语言的事实上的标准。本文作为入门级的教程,我不会试图分析Cypher语言的全部内容,本文的目标是循序渐进 阅读全文
posted @ 2017-05-24 09:37 悦光阴 阅读(107137) 评论(7) 推荐(29) 编辑
摘要: 在深入学习图形数据库之前,首先理解属性图的基本概念。一个属性图是有向图,由顶点(Vertex),边(Edge),标签(Lable),关系类型(Relationship Type)和属性(Property)组成。 在属性图形中,节点和关系是最重要的实体,顶点也称作节点(Node),边也称作关系(Rel 阅读全文
posted @ 2017-05-22 10:07 悦光阴 阅读(15144) 评论(9) 推荐(13) 编辑
摘要: 图形数据库(Graph Database)是NoSQL数据库家族中特殊的存在,用于存储丰富的关系数据,Neo4j 是目前最流行的图形数据库,支持完整的事务,在属性图中,图是由顶点(Vertex),边(Edge)和属性(Property)组成的,顶点和边都可以设置属性,顶点也称作节点,边也称作关系,每 阅读全文
posted @ 2017-05-19 11:16 悦光阴 阅读(105168) 评论(6) 推荐(27) 编辑
摘要: ElasticSearch 2.4版本支持Java正则表达式查询,但是,在对大段的文本(Text Block)进行挖掘之前,必须了解正则表达式查询的特殊之处。由于分析器会对文本字段进行分词,移除停用词,小写转换等操作,最终存储在倒转索引中的是小写的标记流(Token Stream),默认情况下,每一个标记是一个分词(Term),这无法满足正则表达式查询的一般要求,这就是说,正则表达式查询的是原始文本,需要注意的是,ElasticSearch引擎都是从原始文本的第一个字符开始执行正则表达式匹配。 在ElasticSearch 2.4版本中启用正则表达式之前,需要考虑两个问题:分词吗?大小写敏感吗? 阅读全文
posted @ 2017-05-10 09:26 悦光阴 阅读(13751) 评论(3) 推荐(7) 编辑
摘要: 在ElasticSearch 2.4版本中,文档存储的介质分为内存和硬盘:内存速度快,但是容量有限;硬盘速度较慢,但是容量很大。同时,ElasticSearch进程自身的运行也需要内存空间,必须保证ElasticSearch进程有充足的运行时内存。为了使ElasticSearch引擎达到最佳性能,必须合理分配有限的内存和硬盘资源。 阅读全文
posted @ 2017-05-09 09:58 悦光阴 阅读(40185) 评论(3) 推荐(7) 编辑
摘要: 在全文搜索(Fulltext Search)中,词(Term)是一个搜索单元,表示文本中的一个词,标记(Token)表示在文本字段中出现的词,由词的文本、在原始文本中的开始和结束偏移量、以及数据类型等组成。ElasticSearch 把文档数据写到倒排索引(Inverted Index)的结构中,倒排索引建立词(Term)和文档之间的映射,索引中的数据是面向词,而不是面向文档的。分析器(Analyzer)的作用就是分析(Analyse),用于把传入Lucene的文档数据转化为倒排索引,把文本处理成可被搜索的词。分析器由一个分词器(Tokenizer)和零个或多个标记过滤器(TokenFilter)组成,也可以包含零个或多个字符过滤器(Character Filter)。 阅读全文
posted @ 2017-05-08 09:14 悦光阴 阅读(15782) 评论(4) 推荐(5) 编辑
摘要: 在ElasticSearch中,使用JSON结构来存储数据,一个Key/Value对是JSON的一个字段,而Value可以是基础数据类型,也可以是数组,文档(也叫对象),或文档数组,因此,每个JSON文档都内在地具有层次结构。复合数据类型是指数组类型,对象类型和嵌套类型, 阅读全文
posted @ 2017-05-05 09:37 悦光阴 阅读(82964) 评论(5) 推荐(11) 编辑
摘要: SSIS 设计系列: Package设计1:选择数据类型、暂存数据和并发 Package设计2:增量更新 Package 设计3:数据源的提取和使用暂存 在使用SSIS Package处理海量数据时,必须精心设计Package的各个Task组件,“锱铢必较”,以最快的速度和最小的资源消耗,完成既定的 阅读全文
posted @ 2017-05-03 10:33 悦光阴 阅读(1067) 评论(0) 推荐(6) 编辑
摘要: 哈希函数是映射函数,它把输入的数据值经过一定的转换算法,映射成为新的数据值,哈希算法质量的好坏,是由产生的数据值的精确度决定的,理想的哈希函数有两个特性:对于同一个输入值,产生相同的哈希值;对于不同的输入值,产生不同的哈希值。对于不同的输入值,产生相同的哈希值,这就叫冲突,冲突越少,哈希算法的质量越 阅读全文
posted @ 2017-05-03 10:13 悦光阴 阅读(4366) 评论(4) 推荐(3) 编辑
摘要: 在分析数据时,不可能总是对单个数据表进行分析,有时需要把多个数据表导入到PowerBI中,通过多个表中的数据及其关系来执行一些复杂的数据分析任务,因此,为准确计算分析的结果,需要在数据建模中,创建数据表之间的关系。在PowerBI中,关系(Relationship)是指数据表之间的基数(Cardin 阅读全文
posted @ 2017-04-27 10:11 悦光阴 阅读(18315) 评论(0) 推荐(8) 编辑
摘要: 在商业智能解决方案中,SSIS工程有两种部署模式:工程部署(project deployment)和包部署(package deployment),默认是工程部署模式,在Package的管理上,工程部署模式是当前主流的部署模式,比包部署的更容易管理,也更容易对package进行调试和故障排除,而包部 阅读全文
posted @ 2017-04-26 08:19 悦光阴 阅读(2646) 评论(2) 推荐(4) 编辑
摘要: 在SSIS中,Package是Task组件的有序组合,具有层次结构,Package处于层次结构的顶层(Root Level),对于父子包结构,父包(Parent Package)通过Execute Package Task组件调用其他Package,被调用的Package是子包,父包是子包的上层级别 阅读全文
posted @ 2017-04-25 09:21 悦光阴 阅读(1239) 评论(0) 推荐(6) 编辑
摘要: PowerBI是微软新一代的交互式报表工具,把相关的静态数据转换为酷炫的可视化的,能够根据filter条件,对数据执行动态筛选,从不同的角度和粒度上分析数据。PowerBI主要由两部分组成:PowerBI Desktop和 PowerBI Service,前者供报表开发者使用,用于创建数据模型和报表 阅读全文
posted @ 2017-04-24 08:19 悦光阴 阅读(23504) 评论(3) 推荐(19) 编辑
摘要: 在SQL Server中,凭证(Credential)用于把Windows用户的身份验证信息(在Windows环境下,是Windows 用户名和密码)存储在SQL Server实例中,并把该身份验证信息传递给Login和Proxy,使其有权限访问SQL Server实例之外的资源。在SQL Serv 阅读全文
posted @ 2017-04-20 10:21 悦光阴 阅读(1412) 评论(0) 推荐(4) 编辑
摘要: 使用C#代码实现对ElastiSearch的编程查询,是十分方便的,通常情况下,开发者采用官方提供的NEST客户端程序,通过封装的方法向ElasticSearch引擎发送查询请求,搜索数据,最终获取返回的查询结果,实现预定的业务需求。在内部,NEST客户端通过格式化的数据结构,把C#代码转换成HTTP 请求(Request),减轻了用户直接编写Qeury DSL的麻烦。当然,用户也可以直接把Query DSL封装成HTTP请求,发送到ElasticSearch引擎;对开发者来说,不仅需要熟悉Query DSL的语法,而且需要手动编写代码,处理引擎返回的JSON结构化的数据集,采用这种方式的优点是不受限于NEST客户端程序,能够最大化使用ElasticSearch查询的各种参数,书写自由。 阅读全文
posted @ 2017-04-07 08:42 悦光阴 阅读(16394) 评论(6) 推荐(18) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 28 下一页