上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 28 下一页
摘要: 聚合实际上对数据做分组统计,SQL Server使用两种操作符来实现聚合,流聚合(Stream Aggregation)和哈希聚合(Hash aggration)。流聚合是非阻塞性的,具有流的特性,流聚合操作符;边处理数据,边输出聚合的结果。而哈希聚合是阻塞性的,只要处理完所有的数据,才会输出聚合的 阅读全文
posted @ 2019-01-15 08:07 悦光阴 阅读(3400) 评论(0) 推荐(2)
摘要: 在产品环境中,往往存在着大量的表连接情景,不管是inner join、outer join、cross join和full join(逻辑连接符号),在内部都会转化为物理连接(Physical Join),SQL Server共有三种物理连接:Nested Loop(嵌套循环),Merge Join 阅读全文
posted @ 2019-01-14 08:43 悦光阴 阅读(5100) 评论(0) 推荐(2)
摘要: SQL Server的Spool(假脱机)操作符,用于把前一个操作符处理的数据(又称作中间结果集)存储到一个隐藏的临时结构中,以便在执行过程中重用这些数据。这个临时结构都创建在tempdb中,通常的结构是工作表(worktable)和工作文件(workfile)。假脱机运算符会取出表或索引结构中的一 阅读全文
posted @ 2019-01-11 08:24 悦光阴 阅读(2287) 评论(2) 推荐(1)
摘要: 查询优化器基于当前的统计信息和参数,衡量开销之后,选择“最优”的执行计划,需要注意的是,“最优”是相对的,优化器不可能穷举所有的执行计划来评估其开销,这个“最优”的标准是对当前参数和当前的统计信息来说的,优化器从生成的备选执行计划中选择开销最小的。由于执行计划的编译和生成是很耗费资源和时间的,因此, 阅读全文
posted @ 2019-01-10 08:29 悦光阴 阅读(1410) 评论(0) 推荐(1)
摘要: SQL Server优化器基于开销(Cost)评估执行计划,选择开销最小的作为“最优化”的执行计划。计算开销的根据是索引及其统计信息,因此,索引和统计数据是非常重要的。查询优化器(Query Optimizer)使用统计信息对查询的开销进行评估(Estimate),选择开销最小的查询计划,作为最终的 阅读全文
posted @ 2019-01-09 10:22 悦光阴 阅读(1349) 评论(1) 推荐(2)
摘要: 数据库系统严重依赖服务器的资源:CPU,内存和硬盘IO,通常情况下,内存是数据的读写性能最高的存储介质,但是,内存的价格昂贵,这使得系统能够配置的内存容量受到限制,不能大规模用于数据存储;并且内存是易失性的,不能持久化存储数据,这使得内存只能作为运行时的高速缓存,而硬盘是永久存储数据的理想介质,价格 阅读全文
posted @ 2019-01-08 08:26 悦光阴 阅读(5399) 评论(3) 推荐(3)
摘要: 关系型数据库严重依赖底层的硬件资源,CPU是服务器的大脑,当CPU开销很高时,内存和硬盘系统都会产生不必需要的压力。CPU的性能问题,直观来看,就是任务管理器中看到的CPU利用率始终处于100%,而侦测CPU压力的工具,最精确的就是性能监控器。 在SQL Server中,有五类操作非常消耗CPU资源 阅读全文
posted @ 2019-01-07 08:33 悦光阴 阅读(1921) 评论(1) 推荐(2)
摘要: 在数据分析中,通常需要把连续的数据离散化或拆分成多个区间(bin),这就需要用到cut()或qcut()函数。 一,cut函数 把值切分成离散的区间,有三种切分方式,第一种方式是制定区间的数量,把连续值平均切分;第二种方式是以标量值序列指定各个区间的边界值;第三种方式是以IntervalIndex 阅读全文
posted @ 2019-01-05 17:28 悦光阴 阅读(1916) 评论(0) 推荐(2)
摘要: 数据仓库是数据的仓库,数据是从操作型数据库系统中获取,经过集成处理、按照合适的粒度进行聚合而成的数据的集合。 构建数据仓库,要从数据模型、数据集成、粒度设计和分区设计这四个方面着手,迭代式开发。 一,数据模型 在设计数据仓库之前,首先要了解操作型数据库的数据模型,数据模型分为三个层次: ERD(实体 阅读全文
posted @ 2019-01-04 09:14 悦光阴 阅读(3011) 评论(3) 推荐(5)
摘要: 数据仓库是伴随着信息技术和决策支持系统(DSS,Decision Support System)的发展而产生的,利用历史的操作数据进行管理和决策。 数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的,用于支持管理人员决策的数据集合,数据仓库包含粒度化的企业数据,在不同的粒度级别上对数据进行聚 阅读全文
posted @ 2019-01-03 10:01 悦光阴 阅读(4287) 评论(2) 推荐(4)
摘要: K最近邻(kNN,k-NearestNeighbor)算法是一种监督式的分类方法,但是,它并不存在单独的训练过程,在分类方法中属于惰性学习法,也就是说,当给定一个训练数据集时,惰性学习法简单地存储或稍加处理,并一直等待,直到给定一个检验数据集时,才开始构造模型,以便根据已存储的训练数据集的相似性对检 阅读全文
posted @ 2019-01-02 07:36 悦光阴 阅读(6401) 评论(2) 推荐(2)
摘要: 变量之间存在着相关关系,比如,人的身高和体重之间存在着关系,一般来说,人高一些,体重要重一些,身高和体重之间存在的是不确定性的相关关系。回归分析是研究相关关系的一种数学工具,它能帮助我们从一个变量的取值区估计另一个变量的取值。 OLS(最小二乘法)主要用于线性回归的参数估计,它的思路很简单,就是求一 阅读全文
posted @ 2018-12-29 16:53 悦光阴 阅读(72959) 评论(0) 推荐(2)
摘要: 散点图用于描述两个连续性变量间的关系,三个变量之间的关系可以通过3D图形或气泡来展示,多个变量之间的两两关系可以通过散点图矩阵来展示。 一,添加了最佳拟合曲线的散点图 使用基础函数plot(x,y)来绘制散点图,其中x和y是数值型向量,代表着图形中的点(x,y) abline()函数用于添加最佳拟合 阅读全文
posted @ 2018-12-27 09:01 悦光阴 阅读(24122) 评论(0) 推荐(2)
摘要: Scipy中计算距离的模块是scipy.spatial.distance,最常用的方法是计算距离矩阵,换句话说,从存储在矩形数组中的观测向量集合中进行距离矩阵的计算。 一,两两距离 在n维空间中的观测值,计算两两之间的距离。距离值越大,相关度越小。 scipy.spatial.distance.pd 阅读全文
posted @ 2018-12-26 10:58 悦光阴 阅读(5061) 评论(0) 推荐(2)
摘要: 小仙女只喝露珠,不吃饭,媛的2018,奋斗和生活两不误,👍👍👍, 精神胜利法式年度报告 最终成绩:及格 详细指标: 完成了每个月读书的小指标的80%(杂七杂八的书全部完成目标,技术书籍阅读进度一言难尽。。。) 每年拿到两个证书小目标完成 80%(虽然大都靠运气飘过,还拿了一个获奖证书来凑数,但 阅读全文
posted @ 2018-12-24 14:44 悦光阴 阅读(1083) 评论(2) 推荐(4)
摘要: 包(Package)是实现特定功能的、预先写好的代码库(library),通俗地说,包是含有函数、数据等的功能模块。R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量。在使用包之前,最好到社区中了解其他网友的反馈。R预先安装了一系列的基础包,包括base、datas 阅读全文
posted @ 2018-12-21 14:47 悦光阴 阅读(1700) 评论(0) 推荐(1)
摘要: 模块是把程序代码和数据封装的Python文件,也就是说,每一个以扩展名py结尾的Python源代码文件都是一个模块。每一个模块文件就是一个独立的命名空间,用于封装顶层变量名;在一个模块文件的顶层定义的所有的变量名(函数名也是一个变量名),称作模块的属性。导入模块给予了对模块的全局作用域中的变量名的读 阅读全文
posted @ 2018-12-20 09:55 悦光阴 阅读(1362) 评论(0) 推荐(2)
摘要: 函数的参数是参数暴露给外部的接口,向函数传递参数,可以控制函数的流程,函数可以0个、1个或多个参数;在Python中向函数传参,使用的是赋值方式。 一,传递参数 参数是通过赋值来传递的,传递参数的特点是: 参数的传递是通过自动把对象赋值给函数的本地变量名来实现的, 在函数内部的变量名的赋值不会影响调 阅读全文
posted @ 2018-12-19 09:26 悦光阴 阅读(1293) 评论(0) 推荐(2)
摘要: 函数是把一些语句集合在一起的程序结构,用于把复杂的流程细分成不同的组件,能够减少代码的冗余、代码的复用和修改代码的代价。 函数可以0个、1个或多个参数,向函数传递参数,可以控制函数的流程。函数还可以返回代码执行的结果,从技术上讲,任何函数都要返回结果,一个没有返回值的函数会自动返回none对象。如果 阅读全文
posted @ 2018-12-18 08:35 悦光阴 阅读(2534) 评论(0) 推荐(2)
摘要: Python中的迭代是指按照元素的顺序逐个调用的过程,迭代概念包括:迭代协议、可迭代对象和迭代器三个概念。 迭代协议是指有__next__()函数的对象会前进到下一个结果,而到达系列的末尾时,则会引发StopIteration异常。为了支持迭代协议,Python内置了两个函数:iter()和next 阅读全文
posted @ 2018-12-17 10:44 悦光阴 阅读(1657) 评论(2) 推荐(4)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 28 下一页