人工智能之数据分析 numpy

第十一章字符串与字节交换

@
目录
人工智能之数据分析 numpy
前言
一、NumPy 中的字符串数组
1. 创建字符串数组
2. 固定长度行为示例
3. 字符串操作（向量化）
二、字节序（Endianness）与字节交换
1. 什么是字节序？
2. NumPy 中的字节序标识
3. 为什么要字节交换？
三、NumPy 中的字节交换操作
方法 1：.byteswap() —— 返回新数组（可选 in-place）
方法 2：.newbyteorder() —— 创建新 dtype 视图（推荐！）
方法 3：正确读取外部大端数据（标准流程）
四、字符串数组与字节序的关系
五、实战示例：读取二进制文件（含字节序）
六、总结速查表
七、最佳实践建议
后续
资料关注

前言

在 NumPy 中，字符串数组 和 字节序（Endianness）交换 是两个重要但常被忽视的主题。下面分别详细讲解，并说明它们的联系与应用场景。

一、NumPy 中的字符串数组

NumPy 支持两种主要的字符串类型：

类型	描述	创建方式
`'U'`（Unicode 字符串）	固定长度 Unicode 字符串（Python 3 默认）	`dtype='U10'` 表示最多 10 个字符
`'S'`（字节字符串）	固定长度 ASCII/字节字符串（类似 Python 的 `bytes`）	`dtype='S10'` 表示 10 字节

⚠️ 注意：NumPy 字符串是 固定长度 的！超长会被截断，不足会用空字符填充。

1. 创建字符串数组

import numpy as np

# Unicode 字符串 (推荐)
arr_u = np.array(['apple', 'banana', 'cherry'], dtype='U10')
print(arr_u.dtype)  # <U10 → 小端 Unicode，最大 10 字符

# 字节字符串
arr_s = np.array([b'hello', b'world'], dtype='S8')
print(arr_s.dtype)  # |S8 → 8 字节 ASCII 字符串

2. 固定长度行为示例

a = np.array(['Python', 'NumPy'], dtype='U5')
print(a)  # ['Pytho' 'NumPy'] → 'Python' 被截断为 5 字符！

3. 字符串操作（向量化）

NumPy 提供 np.char 模块进行向量化字符串操作：

names = np.array(['Alice', 'Bob', 'Charlie'], dtype='U10')

# 转大写
print(np.char.upper(names))        # ['ALICE' 'BOB' 'CHARLIE']

# 替换
print(np.char.replace(names, 'a', 'A'))  # ['Alice' 'Bob' 'ChAr lie']（注意大小写）

# 拼接
print(np.char.add(names, '_user')) # ['Alice_user' 'Bob_user' 'Charlie_user']

✅ 优势：比 Python 循环快得多（尤其大数据量）

二、字节序（Endianness）与字节交换

1. 什么是字节序？

小端（Little-endian, <）：低位字节在前（x86 CPU 默认）
大端（Big-endian, >）：高位字节在前（网络协议、某些嵌入式系统）

例如：整数 0x12345678 在内存中的存储：

字节序	内存顺序（低地址 → 高地址）
小端	`78 56 34 12`
大端	`12 34 56 78`

2. NumPy 中的字节序标识

NumPy dtype 的字符串表示包含字节序前缀：

a = np.array([1, 2, 3], dtype='<i4')  # 小端 32 位整数
b = np.array([1, 2, 3], dtype='>i4')  # 大端 32 位整数

print(a.dtype.str)  # '<i4'
print(b.dtype.str)  # '>i4'

<：小端（little-endian）
>：大端（big-endian）
=：本机字节序（默认）
|：不适用（如字符串、布尔值）

3. 为什么要字节交换？

跨平台数据交换：从大端机器读取的数据在小端机器上需转换
读取二进制文件：如科学仪器、网络抓包、旧系统导出的数据
GPU/加速器要求特定字节序

三、NumPy 中的字节交换操作

方法 1：`.byteswap()` —— 返回新数组（可选 in-place）

a = np.array([1, 256, 65536], dtype='=i4')  # 本机字节序
print(a.view('uint8'))  # 查看原始字节（假设小端）: [1,0,0,0, 0,1,0,0, ...]

# 字节交换（返回副本）
b = a.byteswap()
print(b.view('uint8'))  # [0,0,0,1, 1,0,0,0, ...] → 变成大端字节序

# in-place 交换（修改原数组）
a.byteswap(inplace=True)

🔍 注意：byteswap() 只交换字节顺序，不改变 dtype 的字节序标记！

方法 2：`.newbyteorder()` —— 创建新 dtype 视图（推荐！）

a = np.array([1, 2, 3], dtype='<i4')  # 小端

# 创建一个“认为自己是大端”的视图（不复制数据！）
b = a.newbyteorder('>')  # 或 '>'

print(b.dtype)          # >i4
print(b[0])             # 值会按大端解释！可能变成一个奇怪的大数

# 如果你有一个大端数据文件，但当前系统是小端：
# 先用本机序读入，再用 newbyteorder 标记为大端，最后 byteswap 纠正值

方法 3：正确读取外部大端数据（标准流程）

# 假设你从文件读取了大端整数（但 NumPy 默认按本机序解释）
raw_data = np.frombuffer(file_content, dtype='>i4')  # 直接指定 dtype 为大端！

# 或者：先按本机读，再转换
data_native = np.frombuffer(file_content, dtype='=i4')
data_correct = data_native.byteswap().newbyteorder()  # 交换字节 + 更新 dtype 标记

四、字符串数组与字节序的关系

字符串类型（'U', 'S'）的字节序标记是 '|'，表示“无字节序”（因为字符是逐字节存储的，无需考虑多字节整数那样的字节顺序）。

s = np.array(['hello'], dtype='U5')
print(s.dtype.byteorder)  # '|' → 不适用

但 Unicode 字符本身可能涉及编码（如 UTF-32 有字节序），不过 NumPy 内部统一处理为 UCS-4（固定 4 字节/字符），并使用本机字节序存储。

✅ 结论：对字符串数组通常不需要手动字节交换，除非你在处理原始二进制编码数据。

五、实战示例：读取二进制文件（含字节序）

假设有一个二进制文件 data.bin，包含 3 个大端 32 位整数：[0x00000001, 0x00000100, 0x00010000]

# 正确方式：直接指定 dtype 为大端
with open('data.bin', 'rb') as f:
    data = np.frombuffer(f.read(), dtype='>i4')
print(data)  # [1, 256, 65536] → 正确！

# 错误方式（本机小端解释大端数据）：
data_wrong = np.frombuffer(f.read(), dtype='<i4')
print(data_wrong)  # [16777216, 65536, 256] → 完全错误！

六、总结速查表

操作	用途	是否复制数据
`arr.byteswap()`	交换每个元素的字节顺序	默认返回副本，`inplace=True` 则修改原数组
`arr.newbyteorder('>')`	创建新 dtype 视图（标记字节序）	❌（视图，不复制）
`np.frombuffer(..., dtype='>i4')`	读取外部大端数据	取决于底层 buffer
字符串数组（`U`/`S`）	存储文本	无需字节交换

七、最佳实践建议

读取二进制数据时，始终明确指定字节序（如 '>f4' 表示大端 float32）
不要对字符串数组做字节交换（无意义且可能破坏编码）
使用 arr.dtype.byteorder 检查当前字节序
跨平台传输 NumPy 数组时，优先使用 .npy 格式（自动处理字节序）

掌握 NumPy 的字符串数组和字节序机制，能让你安全高效地处理科学计算、嵌入式数据、网络协议等真实场景中的二进制与文本数据！💾🌐

后续

本文主要讲述了numpy数组副本和视图。python过渡项目部分代码已经上传至gitee，后续会逐步更新，主要受时间原因限制，当然自己也可以克隆到本地学习拓展。

资料关注

公众号：咚咚王
gitee：https://gitee.com/wy18585051844/ai_learning

《Python编程：从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计（第四版） (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《（西瓜书）周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别（第四版）》
《深度学习 deep learning》伊恩·古德费洛著花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森（Michael+Nielsen）》
《自然语言处理综论第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC：智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型（中文版）》
《实战AI大模型》
《AI 3.0》

posted on 2025-11-23 19:15 咚咚王者阅读(30) 评论(0) 收藏举报

刷新页面返回顶部