Socket与系统调用

系统调用

计算机系统的各种硬件资源是有限的,在现代多任务操作系统上同时运行的多个进程都需要访问这些资源,为了更好的管理这些资源进程是不允许直接操作的,所有对这些资源的访问都必须有操作系统控制。也就是说操作系统是使用这些资源的唯一入口,而这个入口就是操作系统提供的系统调用(System Call)。在linux中系统调用是用户空间访问内核的唯一手段,除异常和陷入外,他们是内核唯一的合法入口。

 

一般情况下应用程序通过应用编程接口API,而不是直接通过系统调用来编程。在Unix世界,最流行的API是基于POSIX标准的。

 

操作系统一般是通过中断从用户态切换到内核态。中断就是一个硬件或软件请求,要求CPU暂停当前的工作,去处理更重要的事情。比如,在x86机器上可以通过int指令进行软件中断,而在磁盘完成读写操作后会向CPU发起硬件中断。

 

中断有两个重要的属性,中断号和中断处理程序。中断号用来标识不同的中断,不同的中断具有不同的中断处理程序。在操作系统内核中维护着一个中断向量表(Interrupt Vector Table),这个数组存储了所有中断处理程序的地址,而中断号就是相应中断在中断向量表中的偏移量。

 

一般地,系统调用都是通过软件中断实现的,x86系统上的软件中断由int $0x80指令产生,而128号异常处理程序就是系统调用处理程序system_call(),它与硬件体系有关,在entry.S中用汇编写。

 

前文已经提到了Linux下的系统调用是通过0x80实现的,但是我们知道操作系统会有多个系统调用(Linux下有319个系统调用),而对于同一个中断号是如何处理多个不同的系统调用的?最简单的方式是对于不同的系统调用采用不同的中断号,但是中断号明显是一种稀缺资源,Linux显然不会这么做;还有一个问题就是系统调用是需要提供参数,并且具有返回值的,这些参数又是怎么传递的?也就是说,对于系统调用我们要搞清楚两点:

 

系统调用的函数名称转换。

系统调用的参数传递。

首先看第一个问题。实际上,Linux中每个系统调用都有相应的系统调用号作为唯一的标识,内核维护一张系统调用表,sys_call_table,表中的元素是系统调用函数的起始地址,而系统调用号就是系统调用在调用表的偏移量。在x86上,系统调用号是通过eax寄存器传递给内核的。比如fork()的实现:

 

用户空间的程序无法直接执行内核代码。它们不能直接调用内核空间中的函数,因为内核驻留在受保护的地址空间上。如果进程可以直接在内核的地址空间上读写的话,系统安全就会失去控制。所以,应用程序应该以某种方式通知系统,告诉内核自己需要执行一个系统调用,希望系统切换到内核态,这样内核就可以代表应用程序来执行该系统调用了。

 

通知内核的机制是靠软件中断实现的。首先,用户程序为系统调用设置参数。其中一个参数是系统调用编号。参数设置完成后,程序执行“系统调用”指令。x86系统上的软中断由int产生。这个指令会导致一个异常:产生一个事件,这个事件会致使处理器切换到内核态并跳转到一个新的地址,并开始执行那里的异常处理程序。此时的异常处理程序实际上就是系统调用处理程序。它与硬件体系结构紧密相关。

 

新地址的指令会保存程序的状态,计算出应该调用哪个系统调用,调用内核中实现那个系统调用的函数,恢复用户程序状态,然后将控制权返还给用户程序。系统调用是设备驱动程序中定义的函数最终被调用的一种方式。

 

查看系统调用的大体情况;

 

 

 

访问系统调用

内核在执行系统调用的时候处于进程上下文。current指针指向当前任务,即引发系统调用的那个进程。

 

在进程上下文中,内核可以休眠并且可以被抢占。这两点都很重要。首先,能够休眠说明系统调用可以使用内核提供的绝大部分功能。休眠的能力会给内核编程带来极大便利。在进程上下文中能够被抢占,其实表明,像用户空间内的进程一样,当前的进程同样可以被其他进程抢占。因为新的进程可以使用相同的系统调用,所以必须小心,保证该系统调用是可重人的。当然,这也是在对称多处理中必须同样关心的问题。

 

当系统调用返回的时候,控制权仍然在system_call()中,它最终会负责切换到用户空间并让用户进程继续执行下去。

 

设置断点进入内核

首先在MenuOS系统中运行hello文件;

 

 

 

然后在gdb中设置断点,查看内核函数入口地址;

 

 

 

 

分析内核源码

首先我们给出内核socket源码的结构体系;

 

 

 

1、应用层——socket 函数

为了执行网络I/O,一个进程必须做的第一件事就是调用socket函数,指定期望的通信协议类型。该函数只是作为一个简单的接口函数供用户调用,调用该函数后将进入内核栈进行系统调用sock_socket 函数。

#include <sys/socket.h>
int socket(int family, int type, int protocol);

2、BSD Socket 层——sock_socket 函数

从应用层进入该函数是通过一个共同的入口函数 sys_socket

首先是请求分配,调用具体的底层函数进行处理;

asmlinkage int sys_socketcall(int call, unsigned long *args)
{
	int er;
	switch(call) 
	{
		case SYS_SOCKET://socket函数
			er=verify_area(VERIFY_READ, args, 3 * sizeof(long));
			if(er)
				return er;
			return(sock_socket(get_fs_long(args+0),
				get_fs_long(args+1),//返回地址上的值
				get_fs_long(args+2)));//调用sock_socket函数

然后来看sock_socket函数主体;

匹配应用程序调用socket()函数时指定的协议

for (i = 0; i < NPROTO; ++i) 
{
	if (pops[i] == NULL) continue;
	if (pops[i]->family == family) //设置域
		break;
}

套接字类型检查;

if ((type != SOCK_STREAM && type != SOCK_DGRAM &&
	type != SOCK_SEQPACKET && type != SOCK_RAW &&
	type != SOCK_PACKET) || protocol < 0)
		return(-EINVAL);

指定对应类型,协议,以及操作函数集

sock->type = type;
sock->ops = ops;

分配下层sock结构,sock结构是比socket结构更底层的表示一个套接字的结构;

if ((i = sock->ops->create(sock, protocol)) < 0) //这里调用下层函数 create
{
	sock_release(sock);//出错回滚销毁处理
	return(i);
}

分配一个文件描述符并在后面返回给应用层序作为以后的操作句柄

if ((fd = get_fd(SOCK_INODE(sock))) < 0) 
{
	sock_release(sock);
	return(-EINVAL);
}

这时我们发现sock_socket 函数内部还调用了一个函数 sock_alloc(),该函数主要是分配一个 socket 套接字结构;

分配一个socket结构;

struct socket *sock_alloc(void)
{
    struct inode * inode;
    struct socket * sock;
 
    inode = get_empty_inode();//分配一个inode对象
    if (!inode)
        return NULL;
    //获得的inode结构的初始化
    inode->i_mode = S_IFSOCK;
    inode->i_sock = 1;
    inode->i_uid = current->uid;
    inode->i_gid = current->gid;
    //可以看出socket结构体的实体空间,就已经存在了inode结构中的union类型中,
    //所以无需单独的开辟空间分配一个socket 结构
    sock = &inode->u.socket_i;//这里把inode的union结构中的socket变量地址传给sock
    sock->state = SS_UNCONNECTED;
    sock->flags = 0;
    sock->ops = NULL;
    sock->data = NULL;
    sock->conn = NULL;
    sock->iconn = NULL;
    sock->next = NULL;
    sock->wait = &inode->i_wait;
    sock->inode = inode;//回绑
    sock->fasync_list = NULL;
    sockets_in_use++;//系统当前使用的套接字数量加1
    return sock;
}

下面我们查看,INET Socket 层——inet_create 函数;该函数被上层sock_socket函数调用,用于创建一个socket套接字对应的sock结构并对其进行初始化;

分配一个sock结构,内存分配一个实体;

sk = (struct sock *) kmalloc(sizeof(*sk), GFP_KERNEL);

 

根据类型进行相关字段的赋值;

    switch(sock->type) 
    {
        case SOCK_STREAM:
        case SOCK_SEQPACKET:
            if (protocol && protocol != IPPROTO_TCP) 
            {
                kfree_s((void *)sk, sizeof(*sk));
                return(-EPROTONOSUPPORT);
            }
            protocol = IPPROTO_TCP;//tcp协议
            sk->no_check = TCP_NO_CHECK;
            //这个prot变量表明了套接字使用的是何种协议
            //然后使用的则是对应协议的操作函数
            prot = &tcp_prot;
            break;
 
        case SOCK_DGRAM:
            if (protocol && protocol != IPPROTO_UDP) 
            {
                kfree_s((void *)sk, sizeof(*sk));
                return(-EPROTONOSUPPORT);
            }
            protocol = IPPROTO_UDP;//udp协议
            sk->no_check = UDP_NO_CHECK;//不使用校验
            prot=&udp_prot;
            break;
      
        case SOCK_RAW:
            if (!suser()) //超级用户才能处理
            {
                kfree_s((void *)sk, sizeof(*sk));
                return(-EPERM);
            }
            if (!protocol)// 原始套接字类型,这里表示端口号
            {
                kfree_s((void *)sk, sizeof(*sk));
                return(-EPROTONOSUPPORT);
            }
            prot = &raw_prot;
            sk->reuse = 1;
            sk->no_check = 0;    /*
                         * Doesn't matter no checksum is
                         * performed anyway.
                         */
            sk->num = protocol;//本地端口号
            break;
 
        case SOCK_PACKET:
            if (!suser()) 
            {
                kfree_s((void *)sk, sizeof(*sk));
                return(-EPERM);
            }
            if (!protocol) 
            {
                kfree_s((void *)sk, sizeof(*sk));
                return(-EPROTONOSUPPORT);
            }
            prot = &packet_prot;
            sk->reuse = 1;
            sk->no_check = 0;    /* Doesn't matter no checksum is
                         * performed anyway.
                         */
            sk->num = protocol;
            break;
 
        default://不符合以上任何类型,则返回
            kfree_s((void *)sk, sizeof(*sk));
            return(-ESOCKTNOSUPPORT);
    }

根据不同协议类型,调用对应init函数;

if (sk->prot->init) 
{
    err = sk->prot->init(sk);//调用相对应4层协议的初始化函数
    if (err != 0) 
    {
        destroy_sock(sk); 
        return(err);
    }
}

Bind()

下面我们再选择bind()函数进行分析;

sock_bind 函数主要就是将用户缓冲区的地址结构复制到内核缓冲区,然后转调用下一层的bind函数;

套接字参数有效性检查;

if (fd < 0 || fd >= NR_OPEN || current->files->fd[fd] == NULL)
    return(-EBADF);

获取fd对应的socket结构;

if (!(sock = sockfd_lookup(fd, NULL))) 
    return(-ENOTSOCK);

将地址从用户缓冲区复制到内核缓冲区,umyaddr->address;

if((err=move_addr_to_kernel(umyaddr,addrlen,address))<0)
      return err;

转调用bind指向的函数,下层函数(inet_bind);

if ((i = sock->ops->bind(sock, (struct sockaddr *)address, addrlen)) < 0) 
{
    return(i);
}

在进行地址绑定时,该套接字应该处于关闭状态;

if (sk->state != TCP_CLOSE)
    return(-EIO);
//地址长度字段校验
if(addr_len<sizeof(struct sockaddr_in))
    return -EINVAL;

非原始套接字类型,绑定前,没有端口号,则绑定端口号;

if(sock->type != SOCK_RAW)
{
    if (sk->num != 0)//从inet_create函数可以看出,非原始套接字类型,端口号是初始化为0的 
        return(-EINVAL);
 
    snum = ntohs(addr->sin_port);//将地址结构中的端口号转为主机字节顺序
 
    //如果端口号为0,则自动分配一个
    if (snum == 0) 
    {
        snum = get_new_socknum(sk->prot, 0);//得到一个新的端口号
    }
    //端口号有效性检验,1024以上,超级用户权限
    if (snum < PROT_SOCK && !suser()) 
        return(-EACCES);
}

检查地址是否是一个本地接口地址

chk_addr_ret = ip_chk_addr(addr->sin_addr.s_addr);

如果指定的地址不是本地地址,并且也不是一个多播地址,则错误返回

if (addr->sin_addr.s_addr != 0 && chk_addr_ret != IS_MYADDR && chk_addr_ret != IS_MULTICAST)
    return(-EADDRNOTAVAIL);    /* Source address MUST be ours! */

如果没有指定地址,则系统自动分配一个本地地址

if (chk_addr_ret || addr->sin_addr.s_addr == 0)
    sk->saddr = addr->sin_addr.s_addr;//本地地址绑定
    
if(sock->type != SOCK_RAW)
{
    /* Make sure we are allowed to bind here. */
    cli();
}

检查检查有无冲突的端口号以及本地地址,有冲突,但不允许地址复用,退出;或者定位到了哈希表sock_array指定索引的链表的末端;

for(sk2 = sk->prot->sock_array[snum & (SOCK_ARRAY_SIZE -1)];
                    sk2 != NULL; sk2 = sk2->next) 
        {
        /* should be below! */
            if (sk2->num != snum) //没有重复,继续搜索下一个
                continue;//除非有重复,否则后面的代码将不会被执行
            if (!sk->reuse)//端口号重复,如果没有设置地址复用标志,退出
            {
                sti();
                return(-EADDRINUSE);
            }
            
            if (sk2->num != snum) 
                continue;        /* more than one */
            if (sk2->saddr != sk->saddr) //地址和端口一个意思
                continue;    /* socket per slot ! -FB */
            //如果状态是LISTEN表明该套接字是一个服务端,服务端不可使用地址复用选项
            if (!sk2->reuse || sk2->state==TCP_LISTEN) 
            {
                sti();
                return(-EADDRINUSE);
            }
        }
        sti();
 
        remove_sock(sk);//将sk sock结构从其之前的表中删除,inet_create中 put_sock,这里remove_sock
        put_sock(snum, sk);//然后根据新分配的端口号插入到新的表中。可以得知系统在维护许多这样的表
        sk->dummy_th.source = ntohs(sk->num);//tcp首部,源端口号绑定
        sk->daddr = 0;//sock结构所代表套接字的远端地址
        sk->dummy_th.dest = 0;//tcp首部,目的端口号
    }

好吧,就看到这儿吧。。。看内核看到头秃。。。

posted @ 2019-12-18 21:31  phil_cao  阅读(690)  评论(0编辑  收藏  举报