人工智能之数据分析 numpy

第十一章 字符串与字节交换


@


前言

在 NumPy 中,字符串数组字节序(Endianness)交换 是两个重要但常被忽视的主题。下面分别详细讲解,并说明它们的联系与应用场景。


一、NumPy 中的字符串数组

NumPy 支持两种主要的字符串类型:

类型 描述 创建方式
'U'(Unicode 字符串) 固定长度 Unicode 字符串(Python 3 默认) dtype='U10' 表示最多 10 个字符
'S'(字节字符串) 固定长度 ASCII/字节字符串(类似 Python 的 bytes dtype='S10' 表示 10 字节

⚠️ 注意:NumPy 字符串是 固定长度 的!超长会被截断,不足会用空字符填充。

1. 创建字符串数组

import numpy as np

# Unicode 字符串 (推荐)
arr_u = np.array(['apple', 'banana', 'cherry'], dtype='U10')
print(arr_u.dtype)  # <U10 → 小端 Unicode,最大 10 字符

# 字节字符串
arr_s = np.array([b'hello', b'world'], dtype='S8')
print(arr_s.dtype)  # |S8 → 8 字节 ASCII 字符串

2. 固定长度行为示例

a = np.array(['Python', 'NumPy'], dtype='U5')
print(a)  # ['Pytho' 'NumPy'] → 'Python' 被截断为 5 字符!

3. 字符串操作(向量化)

NumPy 提供 np.char 模块进行向量化字符串操作:

names = np.array(['Alice', 'Bob', 'Charlie'], dtype='U10')

# 转大写
print(np.char.upper(names))        # ['ALICE' 'BOB' 'CHARLIE']

# 替换
print(np.char.replace(names, 'a', 'A'))  # ['Alice' 'Bob' 'ChAr lie'](注意大小写)

# 拼接
print(np.char.add(names, '_user')) # ['Alice_user' 'Bob_user' 'Charlie_user']

✅ 优势:比 Python 循环快得多(尤其大数据量)


二、字节序(Endianness)与字节交换

1. 什么是字节序?

  • 小端(Little-endian, <​:低位字节在前(x86 CPU 默认)
  • 大端(Big-endian, >​:高位字节在前(网络协议、某些嵌入式系统)

例如:整数 0x12345678 在内存中的存储:

字节序 内存顺序(低地址 → 高地址)
小端 78 56 34 12
大端 12 34 56 78

2. NumPy 中的字节序标识

NumPy dtype 的字符串表示包含字节序前缀:

a = np.array([1, 2, 3], dtype='<i4')  # 小端 32 位整数
b = np.array([1, 2, 3], dtype='>i4')  # 大端 32 位整数

print(a.dtype.str)  # '<i4'
print(b.dtype.str)  # '>i4'
  • <:小端(little-endian)
  • >:大端(big-endian)
  • =:本机字节序(默认)
  • |:不适用(如字符串、布尔值)

3. 为什么要字节交换?

  • 跨平台数据交换​:从大端机器读取的数据在小端机器上需转换
  • 读取二进制文件​:如科学仪器、网络抓包、旧系统导出的数据
  • GPU/加速器要求特定字节序

三、NumPy 中的字节交换操作

方法 1:.byteswap() —— 返回新数组(可选 in-place)

a = np.array([1, 256, 65536], dtype='=i4')  # 本机字节序
print(a.view('uint8'))  # 查看原始字节(假设小端): [1,0,0,0, 0,1,0,0, ...]

# 字节交换(返回副本)
b = a.byteswap()
print(b.view('uint8'))  # [0,0,0,1, 1,0,0,0, ...] → 变成大端字节序

# in-place 交换(修改原数组)
a.byteswap(inplace=True)

🔍 注意:byteswap()只交换字节顺序,不改变 dtype 的字节序标记​!

方法 2:.newbyteorder() —— 创建新 dtype 视图(推荐!)

a = np.array([1, 2, 3], dtype='<i4')  # 小端

# 创建一个“认为自己是大端”的视图(不复制数据!)
b = a.newbyteorder('>')  # 或 '>'

print(b.dtype)          # >i4
print(b[0])             # 值会按大端解释!可能变成一个奇怪的大数

# 如果你有一个大端数据文件,但当前系统是小端:
# 先用本机序读入,再用 newbyteorder 标记为大端,最后 byteswap 纠正值

方法 3:正确读取外部大端数据(标准流程)

# 假设你从文件读取了大端整数(但 NumPy 默认按本机序解释)
raw_data = np.frombuffer(file_content, dtype='>i4')  # 直接指定 dtype 为大端!

# 或者:先按本机读,再转换
data_native = np.frombuffer(file_content, dtype='=i4')
data_correct = data_native.byteswap().newbyteorder()  # 交换字节 + 更新 dtype 标记

四、字符串数组与字节序的关系

  • 字符串类型('U', 'S')的字节序标记是 '|'​,表示“无字节序”(因为字符是逐字节存储的,无需考虑多字节整数那样的字节顺序)。
s = np.array(['hello'], dtype='U5')
print(s.dtype.byteorder)  # '|' → 不适用
  • 但 Unicode 字符本身可能涉及编码(如 UTF-32 有字节序)​,不过 NumPy 内部统一处理为 UCS-4(固定 4 字节/字符),并使用本机字节序存储。

✅ 结论:​对字符串数组通常不需要手动字节交换​,除非你在处理原始二进制编码数据。


五、实战示例:读取二进制文件(含字节序)

假设有一个二进制文件 data.bin,包含 3 个大端 32 位整数:[0x00000001, 0x00000100, 0x00010000]

# 正确方式:直接指定 dtype 为大端
with open('data.bin', 'rb') as f:
    data = np.frombuffer(f.read(), dtype='>i4')
print(data)  # [1, 256, 65536] → 正确!

# 错误方式(本机小端解释大端数据):
data_wrong = np.frombuffer(f.read(), dtype='<i4')
print(data_wrong)  # [16777216, 65536, 256] → 完全错误!

六、总结速查表

操作 用途 是否复制数据
arr.byteswap() 交换每个元素的字节顺序 默认返回副本,inplace=True 则修改原数组
arr.newbyteorder('>') 创建新 dtype 视图(标记字节序) ❌(视图,不复制)
np.frombuffer(..., dtype='>i4') 读取外部大端数据 取决于底层 buffer
字符串数组(U/S 存储文本 无需字节交换

七、最佳实践建议

  1. 读取二进制数据时,始终明确指定字节序​(如 '>f4' 表示大端 float32)
  2. 不要对字符串数组做字节交换​(无意义且可能破坏编码)
  3. 使用 arr.dtype.byteorder 检查当前字节序
  4. 跨平台传输 NumPy 数组时,优先使用 .npy 格式(自动处理字节序)

掌握 NumPy 的字符串数组和字节序机制,能让你安全高效地处理科学计算、嵌入式数据、网络协议等真实场景中的二进制与文本数据!💾🌐

后续

本文主要讲述了numpy数组副本和视图。python过渡项目部分代码已经上传至gitee,后续会逐步更新,主要受时间原因限制,当然自己也可以克隆到本地学习拓展。

资料关注

公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

 posted on 2025-11-23 19:15  咚咚王者  阅读(0)  评论(0)    收藏  举报