DevOps之存储和数据库

唠叨话

关于德语噢屁事的知识点，仅提供专业性的精华汇总，具体知识点细节，参考教程网址，如需帮助，请留言。

《数据（Data）》

了解有关数据部分、涉及存储及数据库的概念；知识与技能的层次（知道、理解），理论与实践的方面（原理）。

《数据设备》
处理器(指令缓存和数据缓存)。

内存(ROM、RAM)、外存(硬盘HD、软盘FD、光盘CD)。
缺页中断算法(FIFO、LRU、OPT)、IOPS(顺序IO、随机IO)、IO管理(IO调度算法)、大块|小块IO、连续|随机IO, 顺序|并发IO。

硬盘：固态硬盘SSD；机械硬盘MHD、硬盘驱动器HDD；混合硬盘HHD。
分布式存储（Ceph）、集中式存储（HDS、EMC、IBM、HP）。
IP-SAN，即RAID连接IP通道组成；FC-SAN，即RAID连接光纤通道组成。
DISK性能指标：IOPS读写数、MBPS吞吐量。
NAS性能指数：OPS、ORT。

IO性能
单位：1秒=10^3ms毫秒=10^6us微秒=10^9ns纳秒。
参数：QPS每秒处理的查询数、TPS每秒处理的事务数、IOPS每秒磁盘的读写数、MBPS每秒磁盘的吞吐率。
一般而言，以实际情况为准。
访问缓存，如：缓存32KB、缓存256KB、缓存8MB、内存16GB。
访问时间，如：缓存2ns、缓存5ns、缓存20ns、内存60ns。
访问周期，如：缓存4、缓存12、缓存36、内存120。
一般而言，以实际情况为准。
CPU缓存的读写数2ns~20ns：若数据缓存32KB延时2ns，则吞吐量6GB/S；若数据缓存256KB延时5ns，则吞吐量3GB/S；若数据缓存8MB延时20ns，则吞吐量2GB/S。
MM内存的读写数20ns~100ns：若内存16GB延时60ns，则吞吐量1GB/S。
SSD硬盘的读写数10us~1ms：若固态盘128GB延时100us，吞吐量300MB/S。
HDD硬盘的读写数5ms~20ms：若机械盘2TB延时12ms，吞吐量40MB/S。
NIC网卡的读写数100us~1ms。

例如：机械硬盘。
寻道时间Seek Time：3~15 ms 毫秒
旋转速度Rotation Speed：5400|7200|10000|15000 rpm 分钟转数
理论值：旋转延迟=(每分钟60秒*1024)/转数/2，以1000为计算标准。
5400 rpm磁盘平均旋转延迟 60*1000/5400/2 = 5.555ms
7200 rpm磁盘平均旋转延迟 60*1000/7200/2 = 4.166ms
10000 rpm磁盘平均旋转延迟 60*1000/10000/2 = 3ms
15000 rpm磁盘平均旋转延迟 60*1000/15000/2 = 2ms
理论值：IOPS=1024 ms/ (寻道时间+旋转延迟)，以1000为计算标准，忽略传输时间。
5400 rpm磁盘平均读写数IOPS = 1000 / (12+5.555) = 57 IOPS
7200 rpm磁盘平均读写数IOPS = 1000 / (9+4.166) = 76 IOPS
10000 rpm磁盘平均读写数IOPS = 1000 / (6+3) = 111 IOPS
15000 rpm磁盘平均读写数IOPS = 1000 / (4+2) = 166 IOPS

平均寻道时间为全部寻道时间的一半，((磁道数/百条磁道)*百条磁道时间)/2。
平均旋转延时为每周旋转时间的一半，(每分钟60秒*1024)/转数/2。
扇区传送时间为 T=b/rN，b/N 即百条磁道时间/每道扇区数。
总的平均时间：平均寻道时间+平均旋转延时+扇区传送时间。

某场合：读取1个10MB文件，耗时0.2秒，Throught吞吐量=50MB/s，IOPS读写数=5，适用吞吐量。
某场合：若读取1000个10KB文件，耗时10秒，Throught吞吐量=1MB/s ，IOPS读写数=1000，适用读写数。

IO磁盘测试
测试对象：SSD、RAID、SAN。
测试指标：IOPS读写数和MBPS吞吐率。
测试工具：Linux之FIO、DD工具，Windows之IOMeter。
测试参数: IO大小、寻址空间、队列深度、读写模式、随机/顺序模式。
若磁盘4KB扇区对齐，则测试服务时间和服务指标。
服务时间 = 寻道时间 + 旋转延时 + 传输时间 + 控制器延时。
服务指标：顺序读、顺序写、随机读、随机写。

《数据概念》

《数据模型》
结构数据：关联分析、分类分析、聚类分析；
非结构数据：文本分析、图形图像分析、音频视频分析。
《数据技术》
类型：采集、存储、清洗、挖掘、视图。
《数据处理》
分类：OLAP联机分析处理、OLTP联机事务处理。
《数据计算》
模式：实时流处理计算、延迟批处理计算。

《数据统计量》
趋势升降（平均数、中位数、众数），波动大小（极差，方差，标准差）。
《数据统计图》
条形图、直方图、柱形图、曲面图、饼图、面积图、趋势图、箱形图、气泡图、散点图、鱼骨图、树状图、茎叶图、雷达图。

《数据技术》
数据分析、数据挖掘、数据报表。
《数据挖掘》
分类、估计、预测、关联、聚类。
《数据操作》
平面数据：分类、归并、排序、存取、检索、输入、输出；
空间数据：拼接、剪辑、合并、叠合。
《数据仓库》
数据仓库（Data Warehouse，DW）数据获取（Data Acquisition）数据存储（Data Storage）数据访问（Data Access）

注：数据知识的相关概念，知道并理解其原理。

《数据系统（Data System）》

熟悉文件、存储、数据库、搜索引擎；知识与技能的层次（知道、理解、运用），理论与实践的方面（原理、技术、操作）。

《文件（File）》
文件系统（File System，FS）
HDFS(Hadoop),GFS(Google),Lustre,FastDFS(Alibaba),TFS(Taobao);MogileFS,MooseFS;Ceph,FreeNAS,NFS,pNFS,AFS(AndrewFS),OpenAFS;
分布式文件系统（Distributed File System，DFS）
Lustre,Ceph,HadoopFS,GoogleFS,TaobaoFS,FastDFS,MogileFS,MooseFS,GlusterFS,GridFS(MongoDB);

《存储（Storage）》
存储技术（Storage Technology，ST）
Block块：DAS（Direct Attached Storage，直连式存储）、SAN（Storage Area Network，存储区域网络）
File文件：NAS（Network Attached Storage，网络附属存储）、NFS（Network File System，网络文件系统）
Object对象：KV（Cache，缓存）
存储系统（Storage System，SS）
文档存储服务DSS（Document）MongoDB,DynamoDB,Couchbase,CouchDB;
键值存储服务KVSS（Key-value）Redis,Memcache;
宽列存储服务WCSS（Wide-column）Cassandra,HBase,Riak;

《数据库（Database）》
关系数据库服务RDS（Relational）Oracle,MySQL,PostgreSQL,SQLServer,Access,SQLite;
时序数据库服务TDS（Timeseries）InfluxDB,RRDtool,Graphite,OpenTSDB;
图形数据库服务GDS（Graph）Neo4j,Titan,Giraph,InfoGrid;
多值数据库服务MDS（Multivalue）Adabas,UniData;
对象数据库服务ODS（Object）Db4o;

《搜索引擎（Search Engine）》
搜索引擎服务SES（Search Engine Service）Elasticsearch,Solr,Splunk,Sphinx;

参考网站 http://www.db-engines.com/

注：通过文件、存储、数据库、搜索引擎的原理和技术知识，熟练运用数据操作，如：安装、配置、管理、运用等。

《数据知识库》

《RAID》
RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)技术
RAID的几种工作模式（RAID0，RAID1，RAID5，RAID10）
1、RAID0（又称为Stripe或Striping分条）
即Data Stripping数据分条技术。无故障的迅速读写，要求安全性不高，如图形工作站等。
RAID 0缺点:不提供数据冗余，数据损坏，无法恢复。
2、RAID1（又称为Mirror或Mirroring镜像）
数据的百分之百备份,磁盘空间利用率低，存储成本高。
3、 RAID 5 （RAID 0和RAID 1）
随机数据传输要求安全性高，如金融、数据库、存储等。
4、 RAID 10 （RAID 0和RAID 1）
RAID10也被称为镜象阵列条带。

《数据》
数据：聚集数据（模拟数据）、离散数据（数字数据）。data：segment段(extents)、extent块(blocks)、block块。
直接附加存储（Direct-Attached Storage，DAS）。
织物附加存储（Fabric-Attached Storage，FAS）：网络接入存储（Network-Attached Storage，NAS）、存储区域网络（Storage Area Network，SAN）。

数据统计软件：SAS、SPSS。
数据仓库架构：Shared Memory(SM)、Shared Disk(SD)、Shared Nothing(SN)。
SM：多个CPU，共享一个内存和一个硬盘。
SD：每个CPU有自己的内存，共享一个硬盘。
SN：每个CPU有自己的内存和硬盘，不共享任何东西。

Google.BigTable，Amazon.Dynamo，Facebook.Cassandra，Linkedin.Voldemort，DouBan.BeansDB，RenRen.Nuclear。
符合CAP规则，计算机节点和数据分区的架构。
Consistency（一致性）：即数据复制到N台机器，如果有更新，N台机器的数据一起更新。
Availability（可用性）：即响应性能好，速度快。
Partition tolerance（容错性）：即机器节点扩展，数据分区方法。

数据逻辑性：面向键值对、面向列存储、面向文档型、面向图形型。
面向键值对（Redis、Memcache）高负载访问，键值对；优势：查询极速。劣势：数据缺少结构化。
面向列存储（Cassandra）分布式文件，列簇式。优势：查找快速，分布式扩展性强。劣势：功能相对局限。
面向文档型（MongoDB）站点应用类，键值对；优势：数据结构不严格。劣势：查询性能及语法不强。
面向图形型（Neo4j）社交关系类，图结构；优势：图结构算法。劣势：分布式集群复杂。
数据分布性：一致性和可用性（MongoDB，HBase)，可用性和可分区性（Cassandra)。
数据持久性：内存（Redis、Memcache)，磁盘（MongoDB、Riak)，内存和磁盘（Cassandra、HBase)。

《分布式》
数据管理方式：数据卷（Data Volumes）、数据卷容器（Data Volume Containers）。
《分布式数据》
容错：Paxos。
计算：Hadoop MapReduce、Apache(Spark、Storm、Samza)。
存储：Apache HBase、Google(Bigtable、Dremel、Spanner)。
《分布式数据存储》
块存储： Ceph rbd、Sheepdog、Rancher Longhorn。
文件存储： Ceph fs、GlusterFS、HadoopFS、GoogleFS、FastDFS、TaobaoFS、MooseFS、GridFS。
对象存储： Ceph rgw、OpenStack Swift、Amazon S3、Hadoop Ozone。

posted on 2017-10-09 17:36 cdani 阅读(1295) 评论(0) 收藏举报

刷新页面返回顶部