代码改变世界

走进Linq-Linq to SQL源代码赏析,通过Linq to SQL看Linq

2008-09-08 09:18  横刀天笑  阅读(...)  评论(... 编辑 收藏
LINQ,语言集成查询,就是把一些查询操作集成到语言中(貌似是废话),比如查询关系数据库,而且提供一种一致的操作方式,不管最终的数据存储在哪里?内存中,远程数据库还是一Xml格式文件存储,不仅仅如此,你还可以用你丰富的想象力扩充自己的查询。Linq to SQL无疑把Linq的能量发挥的淋漓尽致,我们就以Linq to SQL的体系结构来学习一下Linq的整体框架。

 

在上两章里面我们通过源代码探讨了关于DataContext的初始化和Table<TEntity>对象的获取,以及Provider的初始化。今天我们来看看Linq to SQL执行的大至流程

 

假如我们写下这样的代码:

DataContext dbCtx = new DataContext("server=localhost;database=cnblogs;user id=sa;pwd=sa");
Table
<Post> posts = dbCtx.GetTable<Post>();
foreach (Post p in posts)
{
   Console.WriteLine(p.Title);
}

在幕后到底发生了什么呢?

看到foreach代码大家肯定都知道这个Table<Post>肯定实现了IEnumerable<Post>接口,这里的foreach的代码和下面这个代码的效果是一样的,实际上最终也是转换成这样的代码:

IEnumerator<Post> iterator = posts.GetEnumerator();
while (iterator.MoveNext())
{
    Post p 
= iterator.Current;
    Console.WriteLine(p.Title);
}

你可以看我这篇文章了解具体细节。

既然如此那我们就得看看Table<TEntity>GetEnumerator方法了:

public IEnumerator<TEntity> GetEnumerator()
{
   
return ((IEnumerable<TEntity>)this.context.Provider.Execute(Expression.Constant(this)).ReturnValue).GetEnumerator();
}

从这里可以看出它是通过调用IProviderExecute方法。

关于Execute更深层次的内容,在本篇中并不涉及,你只要知道它根据Lambda表达式生成SQL语句,然后对数据库进行操作就OK了。

 

如果存在这样一个查询:

Var result = posts.Where(p=>p.id==1);

这样的一个查询到底会发生什么呢?实际上我们根本无从得知,如果posts是一个内存中的集合那么就是在内存中进行对象的筛选,实际上就是执行一下一个foreach,然后将符合p.Id == 1这个条件的所有Post对象都添加到返回的集合中;如果posts是一个Table<TEntity>对象,那么这个查询最后将生成SQL语句对数据库进行操作。一样是Where,传入的参数也是Lambda表达式,为什么产生的结果却不同呢?两个Where真的是相同的么?

 

实际上在我们对内存中的集合使用Where等扩展方法的时候是使用Enumerable类对IEnumerable<T>的扩展。

我们再来看看Table<TEntity>,它实现了IQueryable<T>接口,IQueryable<T>有一个IQueryProvider类型的成员。在System.Linq命名空间下还有一个Queryable类,这个类是对IQueryable<T>接口进行扩展的。那现在看来Linq to SQLLinq to Objects并没有什么直接关系,唯一的就是靠IEnumerable<T>这个建立起桥梁,让它们查询的方式语言都统一。

我们再来看看EnumerableQueryable中的扩展方法有什么不同:

Enumerable中的扩展方法接受的一般都是委托类型的参数,而Queryable中接受的却是Expression,但为什么它们都可以接受Lambda表达式作为参数呢?

神奇的赋值符号“=

Func<int,bool> IsTrue = x=>x==5;

Expresssion<Func<int,bool>> IsTrue = x =>x==5;

 

赋值符号右边的表达式是一样的,在第一个式子中是将Lambda表达式赋值给委托,第二个式子中将Lambda赋值给Expression,这个东西叫做表达式树。

在第一个式子编译的时候后面的表达式实际上会被转换为一个匿名方法,IsTrue也就是一个“方法的指针”,和我们已经熟识的委托没有什么区别。而第二个式子在执行的时候右边的表达式会被编译为一个树的数据结构(C#编译器实际上为我们做了词法分析、语法分析了,在编译原理里前两个阶段就是词法分析和语法分析,词法分析首先遍历传入的语言字符串,在我们这里就是x=>x==5,词法分析器读取每个字符,识别出标识符,常量,关键字,运算符,词法分析器的产出是Token(符号);然后语法分析器根据该语言的语法范式将Token组织成一个树形结构,用这个树形的结构来表示该语言的代码文件,在我们这里x=>x==5就是Lambda表达式这门“语言”的语句了,Expression就是那个树)。Expression是一个递归形式的定义,它有两个属性:Parameters,这个属性就是Lambda表达式的参数,在上面的代码中就是:x,它还有一个属性是BodyBody也是一个Expression类型,从这里我们看到Expression是这样递归下去的。

 

通过上面的介绍,实际上Queryable中的那些扩展方法所接受的Lambda表达式最后被编译为树数据结构。这些树数据结构携带有查询表达式的语法,但是最终它们要查询什么样的数据,是数据库?还是XML或是Web Service就要靠IQueryProvider来解析了,从这里我们大概可以看到这样一个结构:

 (点击看大图)

 

看到这个图,那我们有几种扩展Linq的方式呢?

第一种:通过给IEnumerableIQueryable添加扩展方法,这个就是利用C#语言的特性来达到的。我将这种扩展称之为横向的扩展。

第二种:自己实现IQueryProvider,这种扩展就是纵向的扩展了,提供自己的Provider,然后这个Provider解析表达式树生成最终具体的查询操作。

 

小结

本文简单的展示一下Linq的体系结构,了解一下Linq的扩展点在哪里,从这里我们也能看到,要做一个好扩展的系统,一个很重要的任务就是提炼接口,接口的粒度,接口的职责等等都是核心关注点。使用接口将几个类隔离,变化点也就封装起来了。