从WEB SERVICE 上返回大数据量的DATASET

        前段时间在做一个项目的时候,遇到了要通过WEB SERVICE从服务器上返回数据量比较大的DATASET,当然,除了显示在页面上以外,有可能还要用这些数据在客户端进行其它操作。查遍了网站的文章,问了一些朋友,也找了一些解决方法.
       
众所周知,如果不用其它方法,直接从WEB SERVICE上传回一个10W条记录的DATASET,可想而知的后果是什么,CPU要占用 100%,且要等上几分钟,这是任何一个项目都无法忍受的.在我上网找资料的过程中,试验了几种不同的方法,通过压缩SOAP改善XML Web service性能,
这篇文章所介绍的方法用了SOAP扩展,是通过在WEB SERVICE端用已经过时了的NZIPLIB库来压缩SOAP响应,据称文本压缩率可达80%.文章里面的代码是VB.NET,费了好大劲翻译成C#,照上面建项目,但是很可惜,我没有编译成功,总是出错.
这里我找我建好的项目提供大家下载,大家有时间看看是什么问题.
SOAP压缩代码下载
      
而后,找到了用序列化的方式来减少网络传输量,Microsoft .NET Framework 1.x 中内建两种将物件序列化的 Formatter类别,SoapFormatter BinaryFormatter,两种方式均能减轻网络传输量提高性能,SoapFormatter方式传输的方式其实还是XML形式,加了很多XML标识,因此压缩率不是很理想,BinaryFormatter用纯二进制的方式序列化DATASET,能使压缩率大大提高,这是台湾作者李匡正 (台灣微軟應用架構技術經理提供的例子里对SQL范例库Northwind的测试结果:

 

SoapFormatter 

BinaryFormatter 

Dataset 序列化後 Bytes 數 

1,953,078

1,448,399 

很显示然BinaryFormatter 明显优于SoapFormatter ,而我也确实用了BinaryFormatter 这种方式实现了提高效率.
再者,用微软提供的DataSetSurrogate 类可以此基础上进一步压缩数据大小,DataSetSurrogate 在.net 2.0里自带。这是比较结果.

  SoapFormatter BinaryFormatter
Dataset 序列化後Bytes數 1,953,078 1,448,399
DataSetSurrogate 序列化後Bytes數 2,371,942 575,684


在这里,有两种方式:可把序列化后的数据用文件形式保存在客户端硬盘;也可用Byte[]方式传回客户端,以下是代码。
web service 端(文件形式)
  [WebMethod(Description="循环获取远程DATASET")]
  
public void SurrogateReadTable(string TableName)
  
{
   
//把DataSet通过Surrogate Class 序列化成 Binary Stream
  
   DataSet ds;
   ds
=SqlHelper.ExecuteDataset(cnn,CommandType.Text,"select * from "+TableName);
   
//实例化DataSetSurrogate,传取出的DATASET到构造函数里
   sds = new DataSetSurrogate(ds); 
   
//实例化二进制流
   BinaryFormatter bf=new BinaryFormatter();
   StreamWriter swDat; 
   
//写到本地一个文件里
   swDat = new StreamWriter(@"c:\output_surrogate_dataset.dat");
   bf.Serialize(swDat.BaseStream, sds);
   
//这里可以知道序列化后的文件的大小
   long size = swDat.BaseStream.Length;
   swDat.Close();
  
  }

客户端

private void button1_Click(object sender, System.EventArgs e)
  
{
   label1.Text
=DateTime.Now.ToString();

   button1.Enabled
=false;
   
//反序列化Binary Stream能通过Surrogate Class转换成 DataSet

   
//从WEB SERVICE上读取方法
   svs.SurrogateRead("t_busdocbase");
   BinaryFormatter bf
=new BinaryFormatter();
   StreamReader swDat; 
   swDat 
= new StreamReader(@"c:\output_surrogate_dataset.dat");
   
object o=bf.Deserialize(swDat.BaseStream);
  DataSet ds;
   sds 
= (DataSetSurrogate) o;
   ds 
= sds.ConvertToDataSet();
   dataGrid1.DataSource
=ds.Tables[0];
   swDat.Close();
   }



web service 端(Byte[]方式)

[WebMethod(Description="获取业务资料远程DATASET")]
      
public byte[] SurrogateRead1()
      
{
       DataSet ds;
       ds
=SqlHelper.ExecuteDataset(cnn,CommandType.Text,"select * from t_busdocbase");
       sds 
= new DataSetSurrogate(ds); 
       MemoryStream s
= new MemoryStream();
       BinaryFormatter bf 
= new BinaryFormatter();
       bf.Serialize(s,sds);
     
       
byte[] e = s.ToArray();
       
return e; 
  
      }


客户端
   

private void button3_Click(object sender, System.EventArgs e)
   
{
    label1.Text
=DateTime.Now.ToString();

    button3.Enabled
=false;
    
//*反序列化Binary Stream能通过Surrogate Class转换成 DataSet*/

    
//从WEB SERVICE上读取方法


     
byte [] bb=svs.SurrogateRead1();
     MemoryStream br
=new MemoryStream(bb);
     BinaryFormatter bf
=new BinaryFormatter();
     
object o=bf.Deserialize(br);
     sds 
= (DataSetSurrogate) o;
     ds 
= sds.ConvertToDataSet(); 
     dataGrid1.DataSource
=ds.Tables[0];

     br.Close();

    }



 



我个人觉得用byte[]方式会安全些,毕竟不用在客户端产生文件,不用担心数据的安全。

当然作为从网络上读取数据来说,10W条是一个不小量,所有的方式包括压缩,序列化等都是权宜之计,而不是长久之计,在使用当中,我用以上的方法虽然能使网络传输量降低,且可在很短时间内就把数据显示在DATAGRID上,但CPU的开销却达到了100%,这是我一直头疼的。我后来又用了分页的方式,把10W条数据在服务器端就分批取出,每次500条,这样读取时间延长了,但CPU开销却未减轻很多,再后来,又用多线程的方式处理,不甚理想。因此最好的方法就是尽可能的不查询10W条数据,通过条件判断等方式减少所需处理的数据量。

本文从以下文章里借鉴:
http://www.dotnetjunkies.com/PrintContent.aspx?type=tutorial&id=46630AE2-1C79-4D5F-827E-6C2857FF1D23

http://blog.joycode.com/5drush/archive/2004/05/28/22990.aspx

http://www.chinacs.net/archives/11/2004/08/10/2155.html

http://www.microsoft.com/taiwan/msdn/columns/adonet/AdoNet_20041231.htm

http://www.microsoft.com/china/msdn/library/langtool/vcsharp/miszipcompression.mspx


posted @ 2005-08-18 09:53 Flyskywlh 阅读(11693) 评论(32) 编辑 收藏

 回复 引用   
#1楼 2005-08-18 09:58 | OnlyUser[未注册用户]
有必要取10w条吗?取那么多客户看得了吗?
 回复 引用 查看   
#2楼 2005-08-18 10:24 | dudu      
文章影响了首页的显示!
 回复 引用 查看   
#3楼 2005-08-18 10:32 | Ansel      
看不到你的代码下载!
 回复 引用 查看   
#4楼[楼主] 2005-08-18 10:48 | Flyskywlh的未来----With .Net      
sorry,刚才还在编辑,现在可以下载了.
 回复 引用 查看   
#5楼 2005-08-18 11:00 | 开源中的灵感之源      
不应该这样!

应该分页取,譬如要显示第3页,每页100条,则取:

301-400,同时返回总记录数,就可以算页数,每次取,请求页数就可以了。这样根本就不存在压力、压缩、优化等问题。
 回复 引用 查看   
#6楼 2005-08-18 11:09 | 被遗弃的小指      
实在是不明白为什么非要通过WS一次性的取10万条数据。。。。。
就算是本机的程序也犯不着一次性的从数据库中取出那么多的数据吖
>_<
 回复 引用   
#7楼 2005-08-18 11:58 | flyskywlh[未注册用户]
前面几位讲的我在文章里头也说了,当然,如果没有10W条数据的情况最好,但实际上也是有某些时候需要取这么多数据,不光是给客户看啊,呵,需要拿来进行其它处理.就像我这次就是实在要这么多数据进行其它处理,我在CSDN上也有看到有人问这种问题的.

且不考虑是否是10W条数据,这里只是介绍一下这种减少网络传输量的方法而已,就算你只有100条数据,也用这种方式还是能节省时间的,呵呵.
 回复 引用   
#8楼 2005-08-19 13:20 | ff[未注册用户]
支持你,

支持,
 回复 引用 查看   
#9楼 2005-09-22 21:31 | 湘子      
这种研究精神很好
 回复 引用   
#11楼 2005-10-06 16:23 | times[未注册用户]
大哥:

  我急需.NET1.1支持下WEB Services读取数据库dataset,传回客户端,客户端修改再传回web services,更新数据库的具体实现,能否帮忙。xinlnix@sina.com万分感谢!!!!!!!!!!!!!!!!!!
 回复 引用   
#12楼 2005-10-18 15:53 | 天外来客[未注册用户]
没有必要搞那么多数据回来把,分页就ok了
 回复 引用   
#13楼 2005-10-27 16:33 | 我提问[未注册用户]
DataSetSurrogate是免费使用的吗?
 回复 引用   
#14楼 2005-11-09 10:14 | 虎哥[未注册用户]
不错,可惜 .Net Compact Framework 下无法使用
 回复 引用   
#15楼 2005-11-10 10:00 | neqi[未注册用户]
使用BinaryFormatter序列化数据之后,会失去标准SOAP的灵活性,如果是其他平台来访问Web Service肯定会失败。而这种情况只能是C#开发的专一客户端访问了。**支持楼主的研究精神**
 回复 引用   
#16楼 2005-11-10 16:30 | MRJQ113[未注册用户]
好像无法看到效果,我点了那个 有压缩 按钮就报错啊。。程序编译是一个错误都没有的啊。。
 回复 引用   
#17楼 2005-11-10 16:37 | MRJQ113[未注册用户]
未处理的“System.InvalidOperationException”类型的异常出现在 system.web.services.dll 中。

其他信息: 客户端发现响应内容类型为“”,但应该是“text/xml”。
 回复 引用 查看   
#18楼 2005-12-13 09:48 | 破甲      
压缩后速度能提高多少!!
 回复 引用   
#19楼 2005-12-15 18:12 | zhaojc[未注册用户]
SqlHelper这个是什么呀,不好意思我是新手,谢谢回答
 回复 引用   
#20楼 2005-12-21 03:09 | qqqqq[未注册用户]
这种问题本就不应该出现,出现这种问题只能说明系统的设计师头脑有问题,打住就是一初级程序员: 理由如下
你一次提取10万条记录的理由在哪里? 一个最最熟练的用户(超人除外) 在第一时间里最多能浏览到多少信息? 要屏幕完全显示10万条记录你把字体设到最小,需要多大的屏幕?这么做你那么多层都干什么去了?WEB SERVICE不是这么用地小伙子
动不动就远程传个几万条记录到一个客户端什么系统,再好的服务器也抗不住
 回复 引用   
#21楼 2006-01-05 01:19 | ss[未注册用户]
一次取10万条数据有什么不可能?我现在就在做这个项目:统计网络游戏服务器历史信息数据,数据库里存放的是的数据每60秒写一次,现在一共有40多组服务器,每组服务器的数据都要统计,这样一个时刻的数据就有几百条,一天就有近100万条的数据,我要根据这些数据画出历史曲线给老板看!
 回复 引用   
#22楼 2006-02-03 16:31 | 荣[未注册用户]
采用数据分页技术,在存储过程的时候返回20条记录(假设你每页只显示20条记录),访问下一页的时候再返回下20条记录就行了
 回复 引用   
#23楼 2006-02-05 10:35 | 无天刀绝[未注册用户]
为了优化WebService传输大数据量DataSet的性能,搜索各大网站资料,尤其是参考了台湾msdn网站的一篇文章,得到一个方案,但是遇到如下问题:
WebService端代码:
[WebMethod]
public Byte[] GetDsBytes()
{
DataSet ds = new DataSet();
//这里循环将20列,10000行记录表加入到DataSet中。。。

DataSetSurrogate sds = new DataSetSurrogate(ds); //DataSetSurrogate这个是微软官方提供的一个压缩DataSet的类库
MemoryStream s = new MemoryStream();
s.Position = 0;
BinaryFormatter bf = new BinaryFormatter();
bf.Serialize(s,sds);

byte[] e = s.ToArray();

//这里测试过,直接反序列化成DataSet是成功的。

s.Close();

return e; //返回二进制序列化过的DataSet byte[]
}
客户端Winform代码:
private xxxx ws = xxxx...//实例化WebService

private void button2_Click(object sender, System.EventArgs e)
{
Byte [] bb = this.ws.GetDsBytes();

MemoryStream br = new MemoryStream(bb);
br.Position = 0;

BinaryFormatter bf = new BinaryFormatter();
object o = bf.Deserialize(br);//这里反序列化出错,错误信息如下,其中WebService1是WebService的命名空间
//未处理的“System.Runtime.Serialization.SerializationException”类型的异常出现在 mscorlib.dll 中。
//其他信息: 无法找到程序集 WebService1, Version=1.0.2227.16697, Culture=neutral, PublicKeyToken=null。

DataSetSurrogate sds = (DataSetSurrogate)o;
DataSet ds = sds.ConvertToDataSet();

br.Close();

this.dataGrid1.DataSource = ds;
}

查了很多资料,csdn也有很多人问这个问题,但是都没有答案,好像是将命名空间名和类名也都序列化到二进制数组中,反序列化的时候无法对应起来,而且我客户端重新建立了一个和WebService命名空间和类库名称相同的类来接收二进制数组,再反序列化也报同样的错。

期待高人出现帮忙解答,谢了!!!!!!
 回复 引用   
#24楼 2006-03-16 17:22 | bbb[未注册用户]
你这个问题产生的原因是客户端没有 DataSetSurrogate这个类(独立的),虽然在webservice中定义了 DataSetSurrogate类,但与客户端程序里的 DataSetSurrogate不是同一个,所以反序列化的时候就会出错
解决的办法就是将 DataSetSurrogate写在单独的dll中,要webservice和客户端都引用这个dll,这样就可以解决反序列化的问题
 回复 引用   
#25楼 2006-03-17 09:41 | 华裔大魔王[未注册用户]
楼主写的不错

学习学习


关于 无天刀绝的问题楼上说的对

其实在服务器端的中间层里再划分一个底层出来

把数据操作写在底层中,包括DataSetSurrogate 序列化

WEB SERVICE 项目引用底层DLL,CLIENT也引用它就OK了
 回复 引用   
#26楼 2006-04-27 15:05 | azhoulia[未注册用户]
学习 顶
 回复 引用   
#27楼 2006-04-27 15:05 | azhoulia[未注册用户]
@azhoulia
学习
 回复 引用   
#28楼 2006-05-10 01:57 | u2462[未注册用户]
@华裔大魔王
那請問該如何處理此DataSetSurrogate寫成dll方式(程式碼)

 回复 引用   
#29楼 2006-05-17 00:27 | xq.gzh[未注册用户]
任何技术问题, 从理论上都可以通过架构来避免, 当你遇到这种技术问题的时候, 多在架构上考虑一下可能会更有帮助, 尤其是你所说的游戏服务器的问题, 之所以会出现10W条数据传输的问题, 首先要质疑的就是你的架构, 哪怕每个机房部署一个服务器直接读取数据库又如何? 部署MQ又如何?
 回复 引用   
#30楼 2006-06-03 09:30 | 刘晓飞[未注册用户]
转object分解为字节流返回重新组合 适合一切对象的返回
 回复 引用 查看   
#31楼 2008-05-09 13:05 | 随风逝去(叶进)      
测试了下,性能好像没见得有什么提升!
 回复 引用 查看   
#32楼 2011-11-22 21:27 | 郭文辉      
不错,不过楼主好像没有对WebService进行实例化就直接用了