【重试】经验总结

一、微服务架构下，为什么需要重试

　　在微服务架构中，一个完整的服务被拆分成多个小的服务，小服务之间通过rpc进行调用，不可避免会出现暂时性的错误，包括网络抖动、访问资源超时、因gc或瞬时流量过大等原因导致的服务暂时不可用等等。这些错误都属于暂时性的，并且可以自己修复，通常重新请求一遍即可解决问题。由此看出，合理的重试确实可以提高服务的稳定性。

二、现状分析

情况一：

　　无重试，下游服务的稳定性直接决定了上游服务的稳定性，且对网络抖动等暂时性错误也容错性较低。

情况二：

　　用for循环进行重试。

 1 func Retry(tryTimes int, sleep time.Duration, callback func() (map[string]interface{}, error)) map[string]interface{} {
 2     for i := 1; i <= tryTimes; i++ {
 3         ret, err := callback()
 4         if err == nil {
 5             return ret
 6         }
 7         if i == tryTimes {
 8             panic(fmt.Sprintf("error info: %s", err.Error()))
 9             return nil
10         }
11         time.Sleep(sleep)
12     }
13     return nil
14 }

情况三：

 1 func Retry(attempts int, sleep time.Duration, fn func() error) error {
 2     if err := fn(); err != nil {
 3         if s, ok := err.(stop); ok {
 4             return s.error
 5         }
 6 
 7         if attempts--; attempts > 0 {
 8             logger.Warnf("retry func error: %s. attemps #%d after %s.", err.Error(), attempts, sleep)
 9             time.Sleep(sleep)
10             return Retry(attempts, 2*sleep, fn)
11         }
12         return err
13     }
14     return nil
15 }
16 
17 type stop struct {
18     error
19 }
20 
21 func NoRetryError(err error) stop {
22     return stop{err}
23 }

为什么有些代码不重试？——指数增长问题

　　在很多代码中，会看到基本上都没有重试逻辑，大家为什么不写重试逻辑呢？主要是因为重试有放大故障的风险。

　　举个例子，重试会增加下游服务的负担。假设A服务调用B服务，重试次数设置为R(包含首次请求)，当B服务高负载时很可能调用失败，这时A服务调用失败会重试调用B，B服务的被调用量快速增大，最坏情况下会放大到R倍，很容易让B服务的负载继续升高，直到B服务挂掉。更可怕的是，重试还会存在链路放大的效应。如下图所示：

　　假设现在的场景是ServiceA调用ServiceB，ServiceB又调用ServiceC。如果ServiceB调用ServiceC重试3次都失败了，这是ServiceB会给ServiceA返回失败。但是ServiceA也有重试逻辑，这样算起来，ServiceC就会被重试调用了9次，实际的调用量是指数级增长。假设正常访问量是x，整个链路一共有y层，每层的重试次数是R，那么最大访问量是x*R^(y-1)。这种指数级增长的效应很可怕，可能会导致链路上很多服务被打挂，从而导致整个服务雪崩。

　　另外，写重试逻辑也会比较麻烦，在一些不得不重试的场景下(如调用第三方服务经常失败)，我们可能只是写一个简单的for循环来实现重试逻辑，这样既不安全又不灵活，还降低了代码的可读性。并且每次调整都需要重新部署，重新上线。

退避算法

　　对于一些暂时性的错误，如网络抖动等，可能立即重试还是会失败，通常等待一小会儿再重试的话成功率会较高，决定多久之后再重试的方法叫做退避算法。主要的退避算法有以下几种：

　　线性退避：每次等待固定时间后重试

　　随机退避：在一定范围内等待一个随机时间后重试

　　指数退避：连续重试时，每次等待时间都是前一次的倍数

　　综合退避：如线性退避 + 随机抖动或者指数退避 + 随机抖动

三、如何合理地重试

　　谷歌的SRE的第254页是这样描述的：

　　1、上游对下游的重试次数最多是 3 次；理论上 3 次没成功继续重试的概率很低。

　　2、重试的次数最多占成功次数的 10%，也就是说如果成功调用的 QPS 是 100，那么最多能重试 10 次，下游最多承受平常 1.1 倍的 QPS。这能防止下游出问题，上游暴力重试效果不好，而且还可能造成雪崩。

　　3、需要防止重试次数指数增长的问题。

　　下面介绍一些go的常用重试代码库。

Retry-go：https://github.com/giantswarm/retry-go

Options

 1 type retryOptions struct { 
 2     Timeout         time.Duration         // 超时 
 3     MaxTries        int                   // 重试次数
 4     Checker         func(err error) bool  // 判断是否重试 
 5     Sleep           time.Duration         // 间隔 
 6     AfterRetry      func(err error)       // 每次Retry后调用    
 7     AfterRetryLimit func(err error)       // 最后一次Retry后执行（如果未失败不执行） 
 8 } 
 9 // Defaults:
10 //  Timeout = 15 seconds 
11 //  MaxRetries = 5 
12 //  Checker = errgo.Any 
13 //  Sleep = No sleep

特点：

只支持线性退避算法。
可以定义超时时间。
可以在每次重试后执行自定义的逻辑，例如打印日志等。

go-resty

　　先看下go-resty在发送HTTP请求时，申请重试的实现：

 1 // Execute method performs the HTTP request with given HTTP method and URL
 2 // for current `Request`.
 3 //         resp, err := client.R().Execute(resty.GET, "http://httpbin.org/get")
 4 func (r *Request) Execute(method, url string) (*Response, error) {
 5     var addrs []*net.SRV
 6     var resp *Response
 7     var err error
 8 
 9     if r.isMultiPart && !(method == MethodPost || method == MethodPut || method == MethodPatch) {
10         return nil, fmt.Errorf("multipart content is not allowed in HTTP verb [%v]", method)
11     }
12 
13     if r.SRV != nil {
14         _, addrs, err = net.LookupSRV(r.SRV.Service, "tcp", r.SRV.Domain)
15         if err != nil {
16             return nil, err
17         }
18     }
19 
20     r.Method = method
21     r.URL = r.selectAddr(addrs, url, 0)
22 
23     if r.client.RetryCount == 0 {
24         resp, err = r.client.execute(r)
25         return resp, unwrapNoRetryErr(err)
26     }
27 
28     attempt := 0
29     err = Backoff(
30         func() (*Response, error) {
31             attempt++
32 
33             r.URL = r.selectAddr(addrs, url, attempt)
34 
35             resp, err = r.client.execute(r)
36             if err != nil {
37                 r.client.log.Errorf("%v, Attempt %v", err, attempt)
38             }
39 
40             return resp, err
41         },
42         Retries(r.client.RetryCount),
43         WaitTime(r.client.RetryWaitTime),
44         MaxWaitTime(r.client.RetryMaxWaitTime),
45         RetryConditions(r.client.RetryConditions),
46     )
47 
48     return resp, unwrapNoRetryErr(err)
49 }

重试流程：

　　梳理 Execute(method, url) 在申请时的重试流程：

　　1、如果没有设置重试次数，执行 r.client.execute(r) ：间接申请 Request ，返回 Response 和 error

　　2、如果 r.client.RetryCount 不等于0 ，执行 Backoff() 函数

　　3、Backoff() 办法接管一个解决函数参数，依据重试策略，进行 attempt 次网络申请，同时接管 Retries()、WaitTime()等函数参数

Backoff函数

　　重点看下 Backoff() 函数做了什么动作，代码如下：

 1 // Backoff retries with increasing timeout duration up until X amount of retries
 2 // (Default is 3 attempts, Override with option Retries(n))
 3 func Backoff(operation func() (*Response, error), options ...Option) error {
 4     // Defaults
 5     opts := Options{
 6         maxRetries:      defaultMaxRetries,
 7         waitTime:        defaultWaitTime,
 8         maxWaitTime:     defaultMaxWaitTime,
 9         retryConditions: []RetryConditionFunc{},
10     }
11 
12     for _, o := range options {
13         o(&opts)
14     }
15 
16     var (
17         resp *Response
18         err  error
19     )
20 
21     for attempt := 0; attempt <= opts.maxRetries; attempt++ {
22         resp, err = operation()
23         ctx := context.Background()
24         if resp != nil && resp.Request.ctx != nil {
25             ctx = resp.Request.ctx
26         }
27         if ctx.Err() != nil {
28             return err
29         }
30 
31         err1 := unwrapNoRetryErr(err)           // raw error, it used for return users callback.
32         needsRetry := err != nil && err == err1 // retry on a few operation errors by default
33 
34         for _, condition := range opts.retryConditions {
35             needsRetry = condition(resp, err1)
36             if needsRetry {
37                 break
38             }
39         }
40 
41         if !needsRetry {
42             return err
43         }
44 
45         waitTime, err2 := sleepDuration(resp, opts.waitTime, opts.maxWaitTime, attempt)
46         if err2 != nil {
47             if err == nil {
48                 err = err2
49             }
50             return err
51         }
52 
53         select {
54         case <-time.After(waitTime):
55         case <-ctx.Done():
56             return ctx.Err()
57         }
58     }
59 
60     return err
61 }

　　梳理 Backoff() 函数的流程：

　　1、Backoff() 接管处理函数和可选的 Option 函数（retry optione）作为参数

　　2、默认策略3次重试，通过步骤一预设的 Options, 自定义重试策略

　　3、设置申请的 repsonse 和 error 变量

　　4、开始进行 opts.maxRetries 次 HTTP 申请。

一个简略的 Demo

 1 func getInfo() {
 2     request := client.DefaultClient().
 3         NewRestyRequest(ctx, "", client.RequestOptions{
 4             MaxTries:      3,
 5             RetryWaitTime: 500 * time.Millisecond,
 6             RetryConditionFunc: func(response *resty.Response) (b bool, err error) {
 7                 if !response.IsSuccess() {
 8                     return true, nil
 9                 }
10                 return
11             },
12         }).SetAuthToken(args.Token)
13     resp, err := request.Get(url)
14     if err != nil {
15         logger.Error(ctx, err)
16     return 
17     }
18 
19     body := resp.Body()
20     if resp.StatusCode() != 200 {
21     logger.Error(ctx, fmt.Sprintf("Request keycloak access token failed, messages:%s, body:%s","message", resp.Status(),string(body))),
22         )
23     return 
24     }
25   ...
26 }

　　依据以上梳理的 go-resty 的申请流程，因为 RetryCount 大于0，所以会进行重试机制，重试次数为3。而后 request.Get(url) 进入到 Backoff() 流程，此时重试的边界条件是： !response.IsSuccess(), 直到请求成功。

posted @ 2021-08-09 00:21 白春雨阅读(632) 评论(0) 收藏举报

刷新页面返回顶部

白春雨