Linux系统编程——进程控制

重点: 环境变量介绍及其获取、进程fork和exec调用、wait函数处理孤儿与僵尸进程以及进程间的通信方式。

PCB介绍

每个进程在内核中都有一个进程控制块来维护进程相关的信息，Linux内核的进程控制块是task_struct结构体。

PCB：进程控制块，存储了进程的各项信息，包括id、umask、环境变量等

进程id。系统中每个进程有唯一的id，在C语言中用pid_t类型表示，其实就是一个非负整数。
进程的状态，有运行、挂起、停止、僵尸等状态。
进程切换时需要保存和恢复的一些CPU寄存器。
描述虚拟地址空间的信息。
描述控制终端的信息。
当前工作目录（Current Working Directory）。
umask掩码。
文件描述符表，包含很多指向file结构体的指针。
和信号相关的信息。
用户id和组id。
控制终端、Session和进程组。
进程可以使用的资源上限（Resource Limit）。

fork和exec是要介绍的两个重要的系统调用。fork的作用是根据一个现有的进程复制出一个新进程，原来的进程称为父进程（Parent Process），新进程称为子进程（Child Process）。系统中同时运行着很多进程，这些进程都是从最初只有一个进程开始一个一个复制出来的。在Shell下输入命令可以运行一个程序，是因为Shell进程在读取用户输入的命令之后会调用fork复制出一个新的Shell进程，然后新的Shell进程调用exec执行新的程序。

我们知道一个程序可以多次加载到内存，成为同时运行的多个进程，例如可以同时开多个终端窗口运行/bin/bash，另一方面，一个进程在调用exec前后也可以分别执行两个不同的程序，例如在Shell提示符下输入命令ls，首先fork创建子进程，这时子进程仍在执行/bin/bash程序，然后子进程调用exec执行新的程序/bin/ls，如下图所示。

fork/exec )

环境变量

exec系统调用执行新程序时会把命令行参数和环境变量表传递给main函数，它们在整个进程地址空间中的位置如下图所示。

进程地址空间

和命令行参数argv类似，环境变量表也是一组字符串，如下图所示。

环境变量

环境变量是key-value形式，一个key可以对应多个value

打印所有的环境变量

#include <stdio.h>
void showAllEnv() {
	extern char* environ;
    
    int i = 0;
    for(;environ[i] != NULL; ++i)
        printf("%s\n", environ[i]);

}

由于父进程在调用fork创建子进程时会把自己的环境变量表也复制给子进程，所以a.out打印的环境变量和Shell进程的环境变量是相同的。

子进程会继承父进程的环境变量

按照惯例，环境变量字符串都是name=value这样的形式，大多数name由大写字母加下划线组成，一般把name的部分叫做环境变量，value的部分则是环境变量的值。环境变量定义了进程的运行环境，一些比较重要的环境变量的含义如下：

PATH: 可执行文件的搜索路径,PATH环境变量的值可以包含多个目录，用:号隔开.

echo $PATH

# /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin

SHELL: 当前shell, 它的值是 /bin/bash

echo $SHELL

# /bin/bash

TERM: 当前终端类型，在图形界面终端下它的值通常是xterm，终端类型决定了一些程序的输出显示方式，比如图形界面终端可以显示汉字，而字符终端一般不行。

echo $TERM

# xterm-256color

HOME: 当前用户主目录的路径，很多程序需要在主目录下保存配置文件，使得每个用户在运行该程序时都有自己的一套配置。

echo $HOME

# /home/user

用environ指针可以查看所有环境变量字符串，但是不够方便，如果给出name要在环境变量表中查找它对应的value，可以用getenv函数。

char getenv(char path)**

#include <stdlib.h>
// char *getenv(const char* name);
void showPath() {
	printf("PATH = %s\n", getenv("PATH"));
}

getenv的返回值是指向value的指针，若未找到则为NULL。

setenv()

#include <stdlib.h>
int setenv(const char *name, const char *value, int rewrite);

unsetenv()

#include <stdlib.h>
void unsetenv(const char *name);

putenv和setenv函数若成功则返回为0，若出错则返回非0。

setenv将环境变量name的值设置为value。如果已存在环境变量name，那么

若rewrite非0，则覆盖原来的定义；
若rewrite为0，则不覆盖原来的定义，也不返回错误。

unsetenv删除name的定义。即使name没有定义也不返回错误。

Fork：创建子进程

fork的作用是根据一个现有的进程复制出一个新进程，原来的进程称为父进程（Parent Process），新进程称为子进程（Child Process）。系统中同时运行着很多进程，这些进程都是从最初只有一个进程开始一个一个复制出来的。在Shell下输入命令可以运行一个程序，是因为Shell进程在读取用户输入的命令之后会调用fork复制出一个新的Shell进程，然后新的Shell进程调用exec执行新的程序。

pid_t fork()

#include <sys/types.h>
#include <unistd.h>

pid_t fork(void);

fork调用失败则返回-1，调用成功的返回值见下面的解释。我们通过一个例子来理解fork是怎样创建新进程的。

#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>

int main(void)
{
	pid_t pid;
	char *message;
	int n;
	pid = fork();
	if (pid < 0) {
		perror("fork failed");
		exit(1);
	}
	if (pid == 0) {
		message = "This is the child\n";
		n = 6;
	} else {
		message = "This is the parent\n";
		n = 3;
	}
	for(; n > 0; n--) {
		printf(message);
		sleep(1);
	}
	return 0;
}

结果:

$ ./a.out 
This is the child
This is the parent
This is the child
This is the parent
This is the child
This is the parent
This is the child
$ This is the child
This is the child

调用过程如下所示:

fork

fork函数的特点概括起来就是“调用一次，返回两次”，在父进程中调用一次，在父进程和子进程中各返回一次。从上图可以看出，一开始是一个控制流程，调用fork之后发生了分叉，变成两个控制流程，这也就是“fork”（分叉）这个名字的由来了。子进程中fork的返回值是0，而父进程中fork的返回值则是子进程的id（从根本上说fork是从内核返回的，内核自有办法让父进程和子进程返回不同的值），这样当fork函数返回后，程序员可以根据返回值的不同让父进程和子进程执行不同的代码。

fork的返回值这样规定是有道理的。fork在子进程中返回0，子进程仍可以调用getpid函数得到自己的进程id，也可以调用getppid函数得到父进程的id。在父进程中用getpid可以得到自己的进程id，然而要想得到子进程的id，只有将fork的返回值记录下来，别无它法。

fork的另一个特性是所有由父进程打开的描述符都被复制到子进程中。父、子进程中相同编号的文件描述符在内核中指向同一个file结构体，也就是说，file结构体的引用计数要增加。

孤儿进程：父进程结束但子进程还在运行

僵尸进程：

孤儿进程是一个比父进程存活时间更长的进程
孤立进程被init所采用
Init等待被收养的子进程终止
采用孤儿进程后，getppid()返回init的PID；通常下init的PID为1
在使用upstart作为init system的系统上，或者在某些配置中使用systemd的系统上，情况是不同的

Exec：执行其他程序

用fork创建子进程后执行的是和父进程相同的程序（但有可能执行不同的代码分支），子进程往往要调用一种exec函数以执行另一个程序。当进程调用一种exec函数时，该进程的用户空间代码和数据完全被新程序替换，从新程序的启动例程开始执行。调用exec并不创建新进程，所以调用exec前后该进程的id并未改变。

#include <unistd.h>

int execl(const char *path, const char *arg, ...);
int execlp(const char *file, const char *arg, ...);
int execle(const char *path, const char *arg, ..., char *const envp[]);
int execv(const char *path, char *const argv[]);
int execvp(const char *file, char *const argv[]);
int execve(const char *path, char *const argv[], char *const envp[]);

函数解析: 不带p(path)的函数表示第一个参数必须是绝对路径或者相对路径，带p则表示是一个可执行程序;

带l的要求将新程序的每个命令行参数当作一个参数传给它，这些参数数量是可变的;

带v的要求将应该先构造一个指向各参数的指针数组，然后将数组的首地址当作参数传给它，数组的末尾元素必须是NULL;

带e的表示可以传一份新的环境变量表给它。

exec调用举例如下：

char *const ps_argv[] ={"ps", "-o", "pid,ppid,pgrp,session,tpgid,comm", NULL};
char *const ps_envp[] ={"PATH=/bin:/usr/bin", "TERM=console", NULL};
execl("/bin/ps", "ps", "-o", "pid,ppid,pgrp,session,tpgid,comm", NULL);
execv("/bin/ps", ps_argv);
execle("/bin/ps", "ps", "-o", "pid,ppid,pgrp,session,tpgid,comm", NULL, ps_envp);
execve("/bin/ps", ps_argv, ps_envp);
execlp("ps", "ps", "-o", "pid,ppid,pgrp,session,tpgid,comm", NULL);
execvp("ps", ps_argv);

事实上，只有execve是真正的系统调用，其它五个函数最终都调用execve，所以execve在man手册第2节，其它函数在man手册第3节。这些函数之间的关系如下图所示。

exec函数族

Wait：获取子进程状态

进程间通信的方式

管道(pipe)

共享内存

socket

FILO

信号

总结

Linux系统API通过setenv和getenv来管理环境变, 通过fork函数创建子进程，子进程继承了父进程的所有信息，我们通过exec函数来使得子进程执行新的程序。

如果父进程先于子进程执行结束，子进程会存留在内存中，等待init进程清理，因此我们可以使用wait函数来获取子进程状态，来清理子进程。

进程间的通信可以使用管道来完成(pipe()),但是管道只能一边读一边写，无法全双工执行，效率较低。

posted @ 2024-10-28 00:35 RunTimeErrors 阅读(86) 评论(0) 收藏举报

刷新页面返回顶部

Runtime

Linux系统编程——进程控制

PCB介绍

环境变量

Fork： 创建子进程

Exec： 执行其他程序

Wait： 获取子进程状态

进程间通信的方式

管道(pipe)

共享内存

socket

FILO

信号

总结

Fork：创建子进程

Exec：执行其他程序

Wait：获取子进程状态