上一页 1 2 3 4 5 6 7 8 9 ··· 26 下一页
摘要: 加密是通过使用密钥或密码来混淆数据的处理过程,把明文处理为密文,如果没有拿到相应的解密密钥或密码,即使拿到密文,也是无用,因此加密是保护数据的一个方法。用户只有拿到密钥和证书把密文数据解密之后,才能使用数据。如果没有密钥和证书,即使得到了数据,也无法得知数据的原始值,数据就没有价值了。由于数据的加密 阅读全文
posted @ 2020-05-17 18:12 悦光阴 阅读(1136) 评论(0) 推荐(1) 编辑
摘要: 证书(Certificates)全称是公钥证书,是一种数字签名语句,它把公钥的值绑定到用户、设备或服务的ID上,这些用户、设备或服务ID拥有私钥,而私钥用于对数据进行解密。SQL Server中的证书同时包含公钥和密钥,前者用来加密,后者解密。为了保证私钥的安全,证书的私钥会被加密,可以使用数据库主 阅读全文
posted @ 2020-05-08 14:52 悦光阴 阅读(980) 评论(0) 推荐(0) 编辑
摘要: 作者:原上野 标题:大数据数据仓库建设链接:https://www.jianshu.com/p/83fa7b8c8e02来源:简书 一,数据仓库的数据模型 1. 数据源 数据源,顾名思义就是数据的来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务源,比如埋点采集,客户上报等。 阅读全文
posted @ 2020-04-29 18:00 悦光阴 阅读(740) 评论(0) 推荐(0) 编辑
摘要: 多维数据分析是指按照多个维度(即多个角度)对数据进行观察和分析,多维的分析操作是指通过对多维形式组织起来的数据进行切片 、切块、聚合、钻取 、旋转等分析操作,以求剖析数据,使用户能够从多种维度、多个侧面 、多种数据综合度查看数据,从而深入地了解包含在数据中的信息和规律。 多维数据分析以数据仓库为基础 阅读全文
posted @ 2020-04-13 15:26 悦光阴 阅读(1923) 评论(0) 推荐(2) 编辑
摘要: 转移组件分为:转移数据库组件和转移数据库对象组件,前者把整个数据库复制或移动到新的SQL Server实例中,后者把数据库中的对象转移到新的SQL Server数据库中。 一,Transfer Database Task 转移数据库任务用于在两个SQL Server实例之间转移数据库,可以拷贝或移动 阅读全文
posted @ 2020-04-08 18:55 悦光阴 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 在SSIS的Execute SQL Task组件中执行存储过程,想要返回单行的结果,总是无法返回查询的结果,返回的错误是无法把DBNull转换为String类型: The type of the value (DBNull) being assigned to variable "User::Mai 阅读全文
posted @ 2020-04-02 11:47 悦光阴 阅读(3689) 评论(0) 推荐(0) 编辑
摘要: 有时会遇到令人费解的情况,平时一分钟可以完成的查询语句,某一天突然发生意外,运行了2-3个小时还在运行,这就是失控查询的行为表现,失控的查询(Runaway Query)是指实际执行时间比预计的时间要长的多,并且消耗大量的系统资源的查询。通常情况下,失控的查询是由关联表没有索引、关联表使用错误的索引 阅读全文
posted @ 2020-03-19 19:52 悦光阴 阅读(318) 评论(0) 推荐(0) 编辑
摘要: SQL Server记录事务日志的目的,是为了把失败或取消的操作还原到最原始的状态,把数据还原到任意时间点。但是,并不是所有的操作都需要完全记录事务日志,比如,在一个空表上放置排他锁,把大量的数据插入到该空表中。即使插入操作在任意时刻失败,只需要把表清空,就可以把表还原到原始状态,根本不需要记录插入 阅读全文
posted @ 2020-03-06 22:33 悦光阴 阅读(742) 评论(0) 推荐(3) 编辑
摘要: 本文使用的环境是SQL Server 2017, 主机是64位操作系统。 大家都知道,Micorosoft Docs对 max参数的定义是:max 指定最大的存储空间是2GB,这个结论是正确的。 nvarchar [ ( n | max ) ]Variable-size string data. n 阅读全文
posted @ 2020-02-28 23:38 悦光阴 阅读(10606) 评论(0) 推荐(0) 编辑
摘要: 在试验中,把考察的指标称为试验指标,影响试验指标的条件称为因素。因素可分为两类,一类是人为可控的测量数据,比如温度、身高等;一类是不可控的随机因素,例如,测量误差,气象条件等。因素所处的状态称为因素的水平。如果在试验过程中,只有一个因素在改变,称为单因素试验。方差分析(Analysis of Var 阅读全文
posted @ 2020-02-25 21:13 悦光阴 阅读(12197) 评论(0) 推荐(0) 编辑
摘要: 数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等。 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫做观测值。 1,变量 变量是用来描述总体中成员的某一个特性,例如,性别、年龄、身高、收入 阅读全文
posted @ 2020-02-24 22:46 悦光阴 阅读(3477) 评论(0) 推荐(0) 编辑
摘要: 同期群(Cohort)属于用户分群里的一个细分类型,是指在规定时间内对具有共同行为特征的用户进行分群。“共同行为特征”是指在某个时间段内的相似行为,它除了按不同时间的新增用户来分类外,还可以按不同的行为来分类,譬如“在2017年6月第一次购买”,“把5月1日~5月7日的注册用户划分为一个群组”等。 阅读全文
posted @ 2019-12-31 15:53 悦光阴 阅读(1901) 评论(0) 推荐(2) 编辑
摘要: 一个漂亮的平均数完全是用数据创造出来的虚幻景象,会给我们的决策造成误导,因此我们需要掌握一个行之有效的方法来剖析真实的用户行为和用户价值,这个方法就是同期群分析(Cohort Analysis)。事实上,数据不会说谎,只是分析数据的人没有做到精准分析而导致对数据呈现的错误解读! 国内对同期群分析相关 阅读全文
posted @ 2019-12-31 11:17 悦光阴 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 异常值在统计学上的全称是疑似异常值,也称作离群点(outlier),异常值的分析也称作离群点分析。异常值是指样本中出现的“极端值”,数据值看起来异常大或异常小,其分布明显偏离其余的观测值。异常值分析是检验数据中是否存在不合常理的数据,在数据分析中,既不能忽视异常值的存在,也不能简单地把异常值从数据分 阅读全文
posted @ 2019-12-27 18:53 悦光阴 阅读(7486) 评论(0) 推荐(2) 编辑
摘要: 在运行以下Python代码时,Pandas抛出SettingWithCopyWarning警告: row_data = df_pred.loc[key] row_data['col'] = new_value df_pred是一个数据框,根据索引从数据框中获取一行,然后对该行的一个字段进行赋值,警告 阅读全文
posted @ 2019-12-13 19:03 悦光阴 阅读(2897) 评论(3) 推荐(3) 编辑
摘要: 矢量化 矢量化是指用数组表达式替换显式的for循环,在Python中循环数组或其他跟数组类似的数据结构时,使用循环会涉及很多开销。NumPy中的矢量化操作把内部循环委托给高度优化的C和Fortran函数,从而实现更清晰,更快速的Python代码。 矢量化是NumPy中的一种强大功能,可以把操作表达为 阅读全文
posted @ 2019-12-11 16:13 悦光阴 阅读(1264) 评论(0) 推荐(1) 编辑
摘要: 整理SQL Server中经常出现的等待类型。 一,CXCONSUMER CXCONSUMER: Occurs with parallel query plans when a consumer thread waits for a producer thread to send rows. Thi 阅读全文
posted @ 2019-12-05 08:25 悦光阴 阅读(1062) 评论(0) 推荐(1) 编辑
摘要: 在SQL Server的内部存储中,日期和时间不是以字符串的形式存储的,而是使用整数来存储的。使用特定的格式来区分日期部分和时间部分的偏移量,并通过基准日期和基准时间来还原真实的数据。 一,DateTime的内部存储 SQL Server存储引擎把DateTime类型存储为2个int32类型,共8个 阅读全文
posted @ 2019-12-04 08:38 悦光阴 阅读(2455) 评论(0) 推荐(1) 编辑
摘要: 数据存储的基本单元是Page,每个Page是8KB,数据文件(mdf和ndf)占用的硬盘空间,逻辑上按照PageNumber进行划分,也就是说,可以把数据文件看作是PageNumber 从0到n的连续Page。硬盘IO的基本单元是Page,这意味着,SQL Server对整个Page执行读写操作。一 阅读全文
posted @ 2019-12-03 09:01 悦光阴 阅读(452) 评论(0) 推荐(1) 编辑
摘要: 一个表或Index使用的数据页空间是由IAM Page Chain来管理的。SQL Server 使用一个IAM(Index Allocation Map)Page来管理数据库文件中最多4GB的空间,一个IAM Page映射文件中4GB大小中的区(Extent),区由8个物理地址连续的Page构成, 阅读全文
posted @ 2019-12-02 17:15 悦光阴 阅读(615) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 26 下一页