SS cloud - Architecting Comput

Virtual Server

Virtual Server DR Introduction

这是虚拟服务器的容灾服务,将服务器和块存储复制到不同的区域(region)。可以计划、测试、实施灾难恢复方案。

  1. DR配置简单
    简答配置即可使用,方便使用和查看的指标,比如数据同步频率
  2. 资源恢复过程简单
  3. 可以与其它产品整合
    如Cloud Monitoring Loging Audit
  4. 高效的成本
    为DR目的创建的虚拟服务器不会产生额外费用,在正常运行期间是关闭的。
    定价包含所有资源的费用,包括用于复制的网络和存储空间。
    也就是说不会有虚拟机的费用,但是还是有复制的网络和存储的费用。

裸设备 Bare Metal Server

是独立的高性能云计算服务。有物理隔离,但是没有虚拟化技术,适合高容量、高性能的工作负载,如实时系统、HPC(高性能计算)。金融、游戏服务和大型数据库。
CPU从16到96核,内存从32Gb到1536GB不等。
可以设置不同放置组,分布在不同物理机架上。

HPC cluster

  • 为计算节点提供多达20个裸机服务器
  • 文件存储(BM)集成设置
  • 自动安装中间件
  • 配置了头节点和计算节点的裸设备服务器来并行分配任务
  • 未了促进HPC的高效任务和调度和并行处理,平台提供Slurm调度器,和OpenMPI和GCC Cluster Shell等中间件。
  • 平台提供用于配置应用程序的环境变量的环境模块和管理环境,允许操作员在运行时修改配置、停止或启动服务。

Cloud Function

是一个FaaS(功能及服务),无服务器的,托管的,代码编写环境,语言:Python,Node.js,PHP,Go

GPU Server Multi-Node GPU Cluter

人工智能需要使用GPU芯片,专门用于并行计算,适合中小型GPU工作负载,例如,LLM服务、医疗视频分析和诊断、动画图形渲染。
类型:1、2、4、8个NVDIA A100 和8个H100

  • GPU Server with NVIDIA MIG(Multi instance GPU)将单个GPU划分为多个较小的实例,最多7个,缓存资源隔离,适用于小型工作负载,如图形渲染和批处理

  • Mult-Node GPU Cluster:创建和管理带有8个NVIDIA GPU的裸设备;集成存储和网络,用于LLM学习,自动驾驶模拟、科学模拟等

Edge Server

边缘服务器,易于在企业数据中心与云平台之间布置混合云,方式是边缘服务器通过VPN或者直接链接+防火墙的方式连接云平台,这样有利于提高安全性和合规性。这是HaaS,硬件及服务,关键系统迁移到云。

Auto Scaling 自动缩放

这是最重要的功能。
scale out:流量增加,服务器基础设施扩展以适应负载
scale in:非高峰时段,或者首次发布之后流量减少,服务器基础设施应缩小规模
与服务器数量的加减不同,数据库必须通过增加服务器的规格来处理流量:
scale up:扩大规模
scale dwon:缩小规模
一般和负载均衡一起使用

在当服务器负载减少且监控指标低于定义的阈值时,自动缩放会根据策略删除一定数量的服务器,一定要记住一个关键概念:冷却期,自动缩放删除服务器之后,如果有服务请求突然激增,自动缩放的相应速度可能会变慢,所以引入了冷却期,就是缩放完成后的特定等待时间,60s~3600s范围。

自动缩放还可以根据时间表(schedule)调整服务器数量;每日、每周、每月、一次

首先要创建一个虚拟服务器的启动配置模板:

  1. 准备初始化脚本,或创建自定义映像。
  2. 创建启动配置,该配置可视为自动缩放中使用的虚拟机模板(配置服务器类型,磁盘容量等)
  3. 设置扩展,最小策略,指定VPC、安全组、负载均衡器等,还可以有服务警报
posted @ 2025-05-27 14:05  老牛的田  阅读(25)  评论(0)    收藏  举报