《大型网站架构演化发展历程》笔记——网站架构模式

模式:关键在于模式的可重复性,问题与场景的可重复性带来解决方案的可重复使用

 

大型互联网公司在实践中提出了许多解决方案,以实现网站高性能、高可用、易伸缩、可扩展、安全等各种技术架构目标。

这些解决方案又被更多网站重复使用,从而逐渐形成大型网站架构模式。

 

1 网站架构模式

1.分层

分层是企业应用系统中最常见的一种架构模式,将系统在横向维度上切分成几个部分,每个部分负责一部分相对比较单一的职责,然后通过上层对下层的依赖和调用组成一个完整的系统。

在大型网站架构中也采用分层结构,将网站软件系统分为应用层、服务层、数据层:

 

分层架构也有一些挑战,就是必须合理规划层次边界和接口,在开发过程中,严格遵循分层架构的约束,禁止跨层次的调用(应用层直接调用数据层)及逆向调用(数据层调用服务层,或者服务层调用应用层)。

大的分层结构内部还可以继续分层,如应用层还可以分为业务逻辑层和视图层,服务层还可以分成逻辑处理层和数据接口层。

 

分层架构是逻辑上的,在物理部署上,三层架构可以部署在同一个物理机器上,但是随着网站业务的发展,必然需要对已经分层的模块分离部署,即三层结构分别部署在不同的服务器上,使网站拥有更多的计算资源以应对越来越多的用户访问。

 

所以虽然分层架构模式最初的目的是规划软件清晰的逻辑结构以便于开发维护,但在网站的发展过程中,分层结构对网站支持高并发向分布式方向的发展至关重要。因此在网站规模还很小的时候就应该采用分层的架构,这样将来网站做大时才能更好应对。

 

2.分割

如果说分层是将软件在横向方面进行切分,那么分割就是在纵向方面对软件进行切分

网站越大,功能越复杂,服务和数据处理的种类也越多,将这些不同的功能和服务分隔开来,包装成高内聚低耦合的模块单元,不仅有助于软件的开发维护便于不同模块的分布式部署,提高网站的并发处理能力和功能扩展能力。

大型网站分割的粒度可能会很小。比如在应用层,将不同业务进行分割,例如将购物、论坛、搜索、广告分割成不同的应用,有独立的团队负责,部署在不同的服务器上。

如果业务复杂庞大,在同一个应用内部还可以继续分割,比如购物业务可以分割成机票酒店业务,小商品业务等,这些又可以继续分割成首页,搜索列表等。

 

3.分布式

对于大型网站,分层和分割的一个主要目的是为了切分后的模块便于分布式部署,即将不同模块部署在不同的服务器上,通过远程调用协同工作。

分布式意味着可以使用更多的计算机完同样的工作,计算机越多,CPU、内存、存储资源就越多,能过处理的并发访问和数据量就越大,进而能够为更多的用户提供服务。

 

分布式存在的问题:

1. 分布式意味着服务调用必须通过网络,可能会对性能造成比较严重影响

2. 服务器越多,宕机概率越大,一台服务器宕机可能会导致很多应用不可访问,降低可用性

3. 数据一致性难以保障,分布式事务

4. 网站依赖综合复杂,开发管理维护困难

 

常用的分布式方案有以下几种:

  • 分布式应用和服务:将分层和分割后的应用和服务模块分布式部署,可以改善网站性能并发性加快开发和发布速度减少数据库连接资源消耗

  • 分布式静态资源:网站的静态资源如JS、CSS、Logo图片等资源独立分布式部署,并采用独立的域名,即人们常说的动静分离。静态资源分布式部署可以减轻应用服务器的负载压力;通过使用独立域名加快浏览器并发加载的速度

  • 分布式数据和存储:大型网站需要处理以P为单位的海量数据,单台计算机无法提供如此大的存储空间,这些数据库需要分布式存储。除了对关系数据库分布式部署外,nosql也几乎都是分布式的。

  • 分布式计算:目前网站普遍使用Hadoop和MapReduce分布式计算框架进行此类批处理计算,其特点是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。

此外,还有支持网站线上服务器配置实时更新的分布式配置;分布式环境下实现并发和协同的分布式锁;支持云存储的分布式文件系统等

 

4.集群

对于用户访问集中的模块需要将独立部署的服务器集群化,即多台服务器部署相同的应用构成一个集群,通过负载均衡设备共同对外提供服务。

服务器集群能够为相同的服务提供更多的并发支持,当有更多的用户访问时,只需要向集群中加入新的机器即可;

当其中的某台服务器发生故障时,负载均衡的失效转移机制将请求转移至集群中其他服务器上,因此提高系统的可用性

【即使是访问量很小的分布式应用和服务,也至少要部署两台服务器构成一个小集群,就是为了提高可用性】

 

5.缓存

缓存就是将数据存放在距离计算最近的位置以加快处理速度。

缓存是改善软件性能的第一手段,软件设计中缓存无处不在。

网站架构中的缓存有以下几种:

  • CDN:内容分发网络,部署在距离终端用户最近的网络服务商,用户的请求最先到达这里,在这里缓存网站一些静态资源,可以就近以最快速度返回给用户(如视频网站和门户网站会将用户访问量最大的热点内容缓存在CDN)。
  • 反向代理:当用户请求到达网站数据中心时,最先访问到的就是反向代理服务器(架构可参阅网站架构),这里缓存网站的静态资源,无需将请求继续转发给应用服务器。
  • 本地缓存:在应用服务器本地缓存着热点数据,应用程序可以在本机内存中直接访问数据,无需访问数据库
  • 分布式缓存:大型网站数据量庞大,需要的内存不是单机能承受的,所以除了本地缓存,还需要分布式缓存,应用程序通过网络通信访问缓存数据

缓存的两个前提条件:

1.数据访问热点不均衡,被频繁访问的数据更该放在缓存中;

2.数据不会很快过期,否则易因为缓存数据失效导致脏读

6.异步

软件发展的一个重要目标和驱动力是降低软件耦合性。解耦合的手段除了分层,分割,分布等,还有一个重要手段是异步,将一个业务操作分成多个阶段,每个阶段通过共享数据的方式异步执行进行协作

单一服务器内部可通过多线程共享内存对了的方式处理;在分布式系统中可通过分布式消息队列来实现异步

异步架构的典型就是生产者消费者方式,两者不存在直接调用。只要保持数据结构不变,彼此功能实现可以随意变化而不互相影响,扩展新功能非常便利。

异步还有如下特性:

  • 提高系统可用性:消费者服务器发生故障,数据会在消息队列服务器中存储堆积,生产者服务器可以继续处理业务请求,系统整体表现无故障。消费者服务器正常后,继续处理消息队列中的数据
  • 加快网站响应速度:生产者服务器处理完业务请求不需等消费者服务器处理就可以返回,响应延迟较少。
  • 消除并发访问高峰:使用消息队列将高峰增加的访问请求数据放入消息队列中,待消费者服务器依次处理

异步处理业务可能影响用户体验,需要产品设计的支持。

 

7.冗余

服务器规模比较大时,宕机几乎是必然事件。要保证在服务器宕机的情况下网站依然可以继续服务,不丢失数据,就需要一点程度的服务器冗余运行数据冗余备份。当某台服务器宕机时,可以将其上的服务和数据访问转移到其他机器上

访问和负载很小的服务也必须部署至少两台服务器构成集群,目的就是通过冗余实现高可用。数据库除了冷备份外,为了保证在线业务高可用,还需要对数据库进行主从分离,实时同步实现热备份,某些大网站还会部署灾备数据中心

 

8.自动化

无人值守的情况下网站可以正常运行,一切都可以自动化是网站的理想状态。目前大型网站的自动化架构设计主要集中在发布运维方面,包括以下:

  • 自动化代码管理:代码版本控制、代码分支创建合并等过程自动化,开发工程师只要提交开发的产品代号,系统会自动为其创建开发分支,后期会自动进行代码合并
  • 自动化测试:代码开发完成,提交测试后,系统自动将代码部署到测试环境,启动自动化测试用例进行测试,并向相关人员发送测试报告,反馈测试结果;
  • 自动化安全检测:安全检测工具通过对代码进行静态安全扫描部署到安全测试环境进行安全攻击测试,评估其安全性;
  • 自动化部署:将工程代码自动部署到线上生产环境
  • 自动化监控:对服务器进行心跳检测,并监控其各项性能指标和应用程序的关键数据指标。如果发现异常,超出预设的阈值,就进行自动化报警
  • 自动化失效转移:检测到故障后,系统会自动将失效的服务器从集群中分隔,不再处理系统中应用请求。故障消除后,系统会自动化失效恢复
  • 自动化降级:当网站遇到访问高峰,超出网站最大处理能力时,为了保证网站安全可用,会通过拒绝部分请求及关闭部分不重要服务将系统负载降至一个安全水平(如双十一淘宝关闭评价)。必要时还需要自动化分配资源,将空闲资源分配给重要任务,扩大其部署规模

 

9.安全

网站在安全架构方面的一些模式:

  • 通过密码和手机校验码进行身份认证;
  • 登录、交易需要对网络通信进行加密;
  • 服务器存储的敏感数据进行加密处理;
  • 使用验证码防止机器程序攻击,占用资源;
  • 对XSS攻击、SQL注入进行编码转换;
  • 对垃圾信息,敏感信息进行过滤;
  • 对交易转账等根据交易模式和交易信息进行风险控制
posted @ 2018-06-28 10:22  钺览IT  阅读(236)  评论(0编辑  收藏  举报