移动互联网长连接方案实例(转)

http://dragonsoar.iteye.com/blog/1567771

1.笔者本人现在在一家创业公司担当整个平台架构的角色,而这家公司是做一移动互联网相关的一些应用产品,由其现在正在和中国最大的互联网公司之一进行合作,负责该互联网公司的手机终端的长连接推送服务,所以有一些总结特在此和大家分享一下。

 

2.下面这篇文章是笔者在几个月前做的一篇长连接的总结,所以可能写的不是非常严谨,特给javaer们进行一些参考即可,有如下几个数据和大家一起分享下:

    1) 单JVM实现了50W以上长连接,每秒消息处理“Hello Word”和心跳包6W次

    2)该长连接,不仅实现了手机终端的摸拟,而且该框架也是一个成熟的RPC框架,已经在笔者所在的公司使用。比阿里巴巴开源版本出来的"dubbo"性能要高,而且更节省带宽,大家可以测试比较一下。

    3)因为netty支持的长连接,每条连接占有用内存是5K,笔者经过包装之后每条连接占用5.3K, 每条长连接系统要占用8K;所以大家可以计算一下每条长连接一共要消耗的系统内存量。

    4)通过“3)”我们可以计算,50W长连接需要多少内存量(JVM):500000*5.3K=2650000K=2.53G,50W长连接需要多少内存量(OS):500000*8K=3.8G

          也就是说,50W长连接的话,大约需要总占用系统10G的内存空间(当然这是保守值,也希望大家多测试测试给出更多的一些数据)

 

 

3.好了,说了这么多,看看笔者的一些测试数据吧(笔者只是把几个月前的测试邮件内容发出,因为某些原因笔者不能发出现在公司正在使用的完全代码实现)

    1)如果要支持这么多的长连接,一定要修改一下系统的一些内核参数,如下:

vi /etc/sysctl.conf  
   
   
net.ipv4.tcp_max_syn_backlog = 65536  
   
net.core.netdev_max_backlog =  32768  
   
net.core.somaxconn = 32768  
   
   
net.core.wmem_default = 8388608  
   
net.core.rmem_default = 8388608  
   
net.core.rmem_max = 16777216  
   
net.core.wmem_max = 16777216  
   
   
net.ipv4.tcp_timestamps = 0  
   
net.ipv4.tcp_synack_retries = 2  
   
net.ipv4.tcp_syn_retries = 2  
   
   
net.ipv4.tcp_tw_recycle = 1  
   
#net.ipv4.tcp_tw_len = 1  
   
net.ipv4.tcp_tw_reuse = 1  
   
   
net.ipv4.tcp_mem = 94500000 915000000 927000000  
   
net.ipv4.tcp_max_orphans = 3276800  
   
   
#net.ipv4.tcp_fin_timeout = 30  
   
#net.ipv4.tcp_keepalive_time = 120  
   
net.ipv4.ip_local_port_range = 1024  65535  
   
   
/sbin/sysctl -p  
   
最后个命令是让配置生效的。  
   
   
vi /etc/security/limits.conf  
   
添加  
   
*                -       nofile          1006154

  

注:a.因为移动终端经常会因为网络问题断开,所以要修改内核参数支持连接断开后快速回收

            b.OS虽然默认TCP的缓冲内存已经足够大,但是因为系统要支持很多的长连接,所以缓冲内存还需要调整,要不然会发生丢包情况(这个也是笔者当时和58同城的资深VP聊天的时候了解并学习到的)

            c.文件句柄数要加大,因为OS默认支持的长连接数量比较小

 

    2)下面是测试的邮件正文

    写道

1. 有消息收发之间的间隔,比如说。Client --> Server端发消息。
如果Server端默认1分钟没有收到消息(包括心跳),则断开连接,可配间隔时间。
同理,如果Client端没有Server推过来的消息(包括心跳),则断开连接,可配间隔时间。

当然,如果没有消息,心跳包也是可以Client <--> Server互发的。如果没有消息,心跳就会互发,为了保证长连接不断。如果要是在接收方没有消息过来,则认为连接断了。之前设计这个的时候,就是考虑到了手机端的长连接的各种应用场景。

2. 每个登录用户没有用户session,不过有这个接口,可以每个连接可以添加一个attchment,可以跟据连接绑定信息。
测试的时候没有给attchment加信息。
其实真的不是为了代替他的方案,当时设计的时候就是为了RPC和手机服务端长连接设计的。
用户session信息比较占用内存,我是建议用户session信息放在堆外,这样不影响JVM。

3. 现在内存表现是用的CMS回收策略,所以没有出现full gc回收停顿的情况。但是因为netty的长连接本身就占了5K,而且我们这边又加了一些扩展信息,所以现在一个连接占了5.3K。

4. 为什么说现在超过50W了,是因为现在内存上限设成6G了,然后又进行了50W以上的长连接和每秒60000以上的消息发送(Hello Word)。
年轻代和老年代回收的时间都在0.4秒左右,所以对应用没有影响才敢说50W长连接了。
(注:年轻代回收,其实整个应用会停的,老年代的 full gc也是整个应用会停的;不过gc.log我看了,在0.4秒左右,所以没有影响应用)
(其实理论上还可以加内存,不过没有经过压力测试也没有时间弄了,没有测试机测试一回太累了,不过至少保证50W长连接没有啥问题)
(我估计也差不多了是上限了,应用内存回收已经占了0.4秒了,再加大如果回收时间占有的太长也不好)

5. 之前为什么说加到6G测试后,不行。是因为我发现jvm的年轻代不能开太大,好像年轻代开的太大会影响整个应用的停顿时间。所以这次是把年轻代保持不变,heap推放大到6G,所就是说多出来的2G空间给老年代了。而长连接正好在老年代保存,所以新加的2G给长连接正好把长连接推到了50W长连接。而且还有1G以上的空闲空间,而且老年代的full gc也控制在了0.4秒,我感觉比例正好。

 

 

下面是测试数据:

1.  同时在线人数 : 508691

2. JVM 参数配置:

5.  每秒消息数:60000msg/s

6. gc.log 信息如下:

 

ParNew :是新生代的回收时间,会让整个应用停止,real 是真实的应用停止时间:0.4x

GC[YG occupancy] 这一段是老年代full gc :会让整个应用停止,real 是真实时间,0.42

因为gc 新年代和老年代收回不频繁,所以对应用没有影响。内存我也其实也不想再加了,在60000 个消息并发和50W 心跳包的情况下能做到这个效果,我感觉不错了。

刚才问了手机QQ 的长连接,这前他们是15~20W 长连接一台,现在新的架构也就能做35~40W ,我感觉现在应该行了。

 

该长连接测试用例,笔者是用summercool-hsf开源框架(笔者的另一个开源的RPC框架)的基础上实现的。笔者正在用grizzly实现另一个手机终端长连接版本,因为grizzly更加节省内存,能支持更多的长连接数量,虽然性能可能不会达到netty,但是对不是高压力该问,但是对长连接数量有非常高要求的应用,grizzly还是非常适合的。笔者因为时间的关系,不再列出grizzly的详细测试数据,后面的章节会继续给出,请大家关注。

 
posted @ 2015-06-03 18:13  蓝云@  阅读(305)  评论(0编辑  收藏  举报