2月7日 C Primer Plus学习

11.1 表示字符串和字符串 I/O

程序清单11.1 strings1.c程序
//  strings1.c
#include <stdio.h>
#define MSG "I am a symbolic string constant."
#define MAXLENGTH 81
int main(void)
{ char words[MAXLENGTH] = "I am a string in an array.";
const char * pt1 = "Something is pointing at me."; puts("Here are some strings:"); puts(MSG); puts(words); puts(pt1);
words[8] = 'p';
puts(words);
return 0;
}

和printf()函数一样,puts()函数也属于stdio.h系列的输入/输出函数。但是,与printf()不同的是,puts()函数只显示字符串,而且自动在显示的字符串末尾加上换行符。

11.1.1 在程序中定义字符串
字符串字面量(字符串常量)

用双引号括起来的内容称为字符串字面量,也叫作字符串常量。双引号中的字符和编译器自动加入末尾的\0字符,都作为字符串储存在内存中。

从ANSI C标准起,如果字符串字面量之间没有间隔,或者用空白字符分隔,C会将其视为串联起来的字符串字面量。例如:

char greeting[50] = "Hello, and"" how are" " you"
                    " today!";

与下面的代码等价:

char greeting[50] = "Hello, and how are you today!";

如果要在字符串内部使用双引号,必须在双引号前面加上一个反斜杠(\):

printf("\"Run, Spot, run!\" exclaimed Dick.\n");

输出如下:
"Run, Spot, run!" exclaimed Dick.

字符串常量属于静态存储类别,这说明如果在函数中使用字符串常量,该字符串只会被储存一次,在整个程序的生命期内存在,即使函数被调用多次。用双引号括起来的内容被视为指向该字符串储存位置的指针。这类似于把数组名作为指向该数组位置的指针。

字符串数组和初始化

定义字符串数组时,必须让编译器知道需要多少空间。一种方法是用足
够空间的数组储存字符串。在下面的声明中,用指定的字符串初始化数组 m1:

const char m1[40] = "Limit yourself to one line's worth.";

const表明不会更改这个字符串。这种形式的初始化比标准的数组初始化形式简单得多:

const char m1[40] = { 'L','i', 'm', 'i', 't', ' ', 'y', 'o', 'u', 'r', 's', 'e', 'l','f', ' ', 't', 'o', ' ', 'o', 'n', 'e', ' ','l', 'i', 'n', 'e','\", 's', ' ', 'w', 'o', 'r','t', 'h', '.', '\0'};

注意最后的空字符。没有这个空字符,这就不是一个字符串,而是一个字符数组。

在指定数组大小时,要确保数组的元素个数至少比字符串长度多1(为了容纳空字符)。所有未被使用的元素都被自动初始化为0(这里的0指的是 char形式的空字符,不是数字字符0)。

让编译器确定初始化字符数组的大小很合理。因为处理字符串的函数通常都不知道数组的大小,这些函数通过查找字符串末尾的空字符确定字符串在何处结束。
让编译器计算数组的大小只能用在初始化数组时。如果创建一个稍后再填充的数组,就必须在声明时指定大小。声明数组时,数组大小必须是可求值的整数。

在C99新增变长数组之前,数组的大小必须是整型常量,包括由整型常量组成的表达式。

还可以使用指针表示法创建字符串。例如,程序清单11.1中使用了下面的声明:

const char * pt1 = "Something is pointing at me.";

该声明和下面的声明几乎相同:

const char ar1[] = "Something is pointing at me.";

以上两个声明表明,pt1和ar1都是该字符串的地址。在这两种情况下,带双引号的字符串本身决定了预留给字符串的存储空间。尽管如此,这两种形式并不完全相同。

数组和指针 以上面的声明为例,数组形式(ar1[])在计算机的内存中分配为一个内含29个元素的数组(每个元素对应一个字符,还加上一个末尾的空字符'\0'),每个元素被初始化为字符串字面量对应的字符。通常,字符串都作为可执行文件的一部分储存在数据段中。当把 程序载入内存时,也载入了程序中的字符串。字符串储存在静态存储区中。但是,程序在开始运行时才会为该数组分配内存。此时,才将字符串拷贝到数组中(第 12 章将详细讲解)。注意,此时字符串有两个副本。一个是在静态内存中的字符串字面量,另一个是储存在ar1数组中的字符串。

此后,编译器便把数组名ar1识别为该数组首元素地址(&ar1[0])的别名。这里关键要理解,在数组形式中,ar1是地址常量。不能更改ar1,如果改变了ar1,则意味着改变了数组的存储位置(即地址)。可以进行类似ar1+1这样的操作,标识数组的下一个元素。但是不允许进行++ar1这样的操作。递增运算符只能用于变量名前(或概括地说,只能用于可修改的左值),不能用于常量。

指针形式(*pt1)也使得编译器为字符串在静态存储区预留29个元素的空间。另外,一旦开始执行程序,它会为指针变量pt1留出一个储存位置,并把字符串的地址储存在指针变量中。该变量最初指向该字符串的首字符,但是它的值可以改变。因此,可以使用递增运算符。例如,++pt1将指向第2 个字符(o)。

字符串字面量被视为const数据。由于pt1指向这个const数据,所以应该把pt1声明为指向const数据的指针。这意味着不能用pt1改变它所指向的数据,但是仍然可以改变pt1的值(即,pt1指向的位置)。如果把一个字符串字面量拷贝给一个数组,就可以随意改变数据,除非把数组声明为const。

总之,初始化数组把静态存储区的字符串拷贝到数组中,而初始化指针只把字符串的地址拷贝给指针。

数组和指针的区别 假设有下面两个声明: ``` char heart[] = "I love Tillie!"; const char *head = "I love Millie!"; ``` 两者主要的区别是:数组名heart是常量,而指针名head是变量。那么,实际使用有什么区别?
  • 首先,两者都可以使用数组表示法:
for (i = 0; i < 6; i++)
putchar(heart[i]);
putchar('\n');
for (i = 0; i < 6; i++)
putchar(head[i]);
putchar('\n');

上面两段代码的输出是:
I love
I love

  • 其次,两者都能进行指针加法操作:
for (i = 0; i < 6; i++)
putchar(*(heart + i)); putchar('\n');
for (i = 0; i < 6; i++)
putchar(*(head + i)); putchar('\n');

输出如下:
I love
I love

  • 但是,只有指针表示法可以进行递增操作:
while (*(head) != '\0')  /* 在字符串末尾处停止*/ putchar(*(head++));  /* 打印字符,指针指向下一个位置 */

这段代码的输出如下:
I love Millie!
假设想让head和heart统一,可以这样做:

head = heart;   /* head现在指向数组heart */ 这使得head指针指向heart数组的首元素。

但是,不能这样做:

heart = head;   /* 非法构造,不能这样写 */

这类似于x = 3;和3 = x;的情况。赋值运算符的左侧必须是变量(或概括地说是可修改的左值),如*pt_int。顺带一提,head = heart;不会导致head指向的字符串消失,这样做只是改变了储存在head中的地址。除非已经保存
了"I love Millie!"的地址,否则当head指向别处时,就无法再访问该字符串。

  • 另外,还可以改变heart数组中元素的信息:
heart[7]= 'M';或者*(heart + 7) = 'M';

数组的元素是变量(除非数组被声明为const),但是数组名不是变量。
我们来看一下未使用const限定符的指针初始化:

char * word = "frame";

是否能使用该指针修改这个字符串?

word[1] = 'l'; // 是否允许?

编译器可能允许这样做,但是对当前的C标准而言,这样的行为是未定义的。例如,这样的语句可能导致内存访问错误。原因前面提到过,编译器可以使用内存中的一个副本来表示所有完全相同的字符串字面量。例如,下面的语句都引用字符串"Klingon"的一个内存位置:

char * p1 = "Klingon";
p1[0] = 'F'; // ok? printf("Klingon"); printf(": Beware the %ss!\n", "Klingon");

也就是说,编译器可以用相同的地址替换每个"Klingon"实例。如果编译器使用这种单次副本表示法,并允许p1[0]修改'F',那将影响所有使用该字
符串的代码。所以以上语句打印字符串字面量"Klingon"时实际上显示的是"Flingon":
Flingon: Beware the Flingons!
实际上在过去,一些编译器由于这方面的原因,其行为难以捉摸,而另一些编译器则导致程序异常中断。因此,建议在把指针初始化为字符串字面量时使用const限定符:

const char * pl = "Klingon";  // 推荐用法

然而,把非const数组初始化为字符串字面量却不会导致类似的问题。因为数组获得的是原始字符串的副本。

总之,如果不修改字符串,不要用指针指向字符串字面量。

字符串数组 如果创建一个字符数组会很方便,可以通过数组下标访问多个不同的字符串。 如果要用数组表示一系列待显示的字符串,请使用指针数组,因为它比二维字符数组的效率高。但是,指针数组也有自身的缺点。如果要改变字符串或为字符串输入预留空间,不要使用指向字符串字面量的指针。
11.1.2 指针和字符串

在讨论字符串时或多或少会涉及指针。实际上,字符串的绝大多数操作都是通过指针完成的。

假设数组有50个元素,考虑一下哪种方法更效率:拷贝一个地址还是拷贝整个数组?通常,程序要完成某项操作只需要知道地址就可以了。如果确实需要拷贝整个数组,可以使用 strcpy()或strncpy()函数。

posted @ 2022-02-07 12:22  shucharjer  阅读(41)  评论(0)    收藏  举报