【译】用 Rust 实现 csv 解析-part2

Rust and CSV parsing 译文（用 Rust 实现 csv 解析-part2）

原文链接：https://blog.burntsushi.net/csv/

原文作者：BurntSushi

译文来自：https://github.com/suhanyujie/article-transfer-rs/

译者：suhanyujie

译者博客：suhanyujie

ps：水平有限，翻译不当之处，还请指正。

标签：Rust，csv

Setup

在这一节中，我们会编写一个简单的程序来读取 CSV 数据并以 debug 的方式打印每条记录。这是基于你已经安装了 Rust 工具链，工具链中包含了 Rust 编译器和 Cargo（包管理工具）。

我们以创建一个新的 Cargo 项目作为开始：

$ cargo new --bin csvtutor
$ cd csvtutor

进入 csvtutor 目录，使用你最喜欢的文本编辑器打开 Cargo.toml 文件，向其中新增 csv = "1" 到你的依赖配置块中。此时，你的 Cargo.toml 文件内容应该如下方所示：

[package]
name = "csvtutor"
version = "0.1.0"
authors = ["Your Name"]

[dependencies]
csv = "1"

接下来，我们构建项目。由于你新增了 csv crate 作为依赖，Cargo 会自动下载并编译它。构建项目使用 Cargo 命令：

$ cargo build

在你的 target/debug 目录下，会产生一个新的二进制文件，csvtutor。这一点上这个命令不会做太多，但你可以执行这个二进制文件：

$ ./target/debug/csvtutor
Hello, world!

我们可以让程序做一些有用的事情。程序可以从标准输入读取 csv 数据并在标准输出打印每一条记录。要完成这个程序，先用你喜欢的编辑器打开 src/main.rs，然后用下面的内容替换其中的内容：

// 这可以让你的程序能访问 csv crate
extern crate csv;

// 导入标准库中的 I/O 模块，这样我们可以从标准输入读取内容
use std::io;

// `main` 函数是程序开始执行的地方
fn main() {
    // 从标准输入读取数据并创建一个 CSV 解析器
    let mut rdr = csv::Reader::from_reader(io::stdin());
    // 遍历每一条记录
    for result in rdr.records() {
        // 一旦发生错误，程序将会以不太友好的方式终止
        // 我们后面会优化这里
        let record = result.expect("a CSV record");
        // 以 debug 的方式打印
        println!("{:?}", record);
    }
}

别太担心读不懂代码的意思；我们会在下一节详细说明。现在，重新构建一下项目：

$ cargo build

如果成功了，我们可以尝试运行一下它。但在此之前，我们需要一些示例 CSV 数据！为此，我们将选择随机的 100 个美国城市，以及它们的人口规模和地理坐标。（我们将在整个教程中使用一样的 CSV 数据。）要获取数据，请从 GitHub 下载：

$ curl -LO 'https://raw.githubusercontent.com/BurntSushi/rust-csv/master/examples/data/uspop.csv'

现在，使用 uspop.csv 作为输入，来运行你的程序：

$ ./target/debug/csvtutor < uspop.csv
StringRecord(["Davidsons Landing", "AK", "", "65.2419444", "-165.2716667"])
StringRecord(["Kenai", "AK", "7610", "60.5544444", "-151.2583333"])
StringRecord(["Oakman", "AL", "", "33.7133333", "-87.3886111"])
# ... and much more

基础的异常处理

由于读取 CSV 数据可能会得到异常结果，因此本教程中的示例中是普遍存在的。因此，我们将花一点时间来学习基本的错误处理，特别是修复我们前面的一些示例，以便更友好地显示错误。如果你已经习惯在 Rust 中使用 Result 和 try!/?，那么你可以安全地跳过这个部分

请注意 Rust 权威指南中包含了一些通用的异常处理的介绍。如果要更深入的了解，可以看我的 Rust 中的错误处理。如果你打算构建 Rust 库，那么这篇文章尤其重要。

这样一来，Rust 中的错误处理就有两种不同的形式：不可恢复的错误和可恢复的错误。

不可恢复的异常通常是程序中的异常，这些异常可能发生在规则被破坏的时候。此时，你的程序的状态是不可预测的，除了 panic 之外，通常也没有什么其他办法。在 Rust 中，panic 类似于简单地终止程序，但是它会在程序退出之前展开堆栈并清理资源。

另一方面，可恢复异常通常应用于可预测的错误。不存在的文件或者无效的 CSV 数据是可恢复错误的例子。在 Rust 中，可恢复异常是通过 Result 处理的。一个 Result 表示计算成功或者失败的状态。它的定义如下：

enum Result<T, E> {
    Ok(T),
    Err(E),
}

也就是说，Result 在计算成功时包含类型为 T 的值，或者在计算失败时包含 E 类型的值。

不可恢复异常和可恢复异常之间的关系很重要。特别地，强烈建议将可恢复异常当做不可恢复异常。例如，在找不到文件或者 CSV 数据不合法时，使用 panic 不是一个好的实践。相反，可预测的异常应该使用 Rust 的 Result 类型来处理。

有了新了解的知识，让我们重新检查前面的示例并分析它的错误处理。

extern crate csv;

use std::io;

fn main() {
    let mut rdr = csv::Reader::from_reader(io::stdin());
    for result in rdr.records() {
        let record = result.expect("a CSV record");
        println!("{:?}", record);
    }
}

在这个程序中有两个地方可能发生错误。第一个地方是从标准输入读取记录是否有问题。第二个是写入到标准输出是否有问题。一般来说，在本教程中我们将忽略后一个问题，尽管健壮的命令行应用程序应该对它进行处理（例如，当管道坏掉时）。然而，前面那个问题更值得详细研究。例如，如果这个程序的用户提供了无效的 CSV 数据，那么程序会发生 panic：

$ cat invalid
header1,header2
foo,bar
quux,baz,foobar
$ ./target/debug/csvtutor < invalid
StringRecord { position: Some(Position { byte: 16, line: 2, record: 1 }), fields: ["foo", "bar"] }
thread 'main' panicked at 'called `Result::unwrap()` on an `Err` value: UnequalLengths { pos: Some(Position { byte: 24, line: 3, record: 2 }), expected_len: 2, len: 3 }', /checkout/src/libcore/result.rs:859
note: Run with `RUST_BACKTRACE=1` for a backtrace.

这里发生了什么？首先，我们应该讨论为什么 CSV 数据是无效的。CSV 数据由三条记录组成：一个头部和两条数据记录。头部和第一个数据记录有两个字段，但是第二个数据记录有三个字段。默认情况下， csv crate 将把不一致长度的记录视为错误。（此行为可以使用 ReaderBuilder::flexible配置来切换。）这解释了为什么在本例中只打印了第一个数据记录，因为它的字段数量与头部记录数相同。也就是说，在解析第二个数据记录之前，我们实际没有碰到错误。

（请注意，CSV reader 会自动将第一个记录看做头部。这可以通过 ReaderBuilder::has_headers 配置切换。）

那么究竟是什么导致了我们程序中的 panic 呢？应该是是循环中的第一行代码了：

for result in rdr.records() {
    let record = result.expect("a CSV record"); // 这里会发生 panic
    println!("{:?}", record);
}

这里要理解的关键一点是，rdr.records() 返回一个迭代器，这个迭代器会返回 Result 值。也就是说，它生成的不是记录，而是包含记录或错误的 Result。在 Result 上定义的 expect 方法在 Result 中拿出成功的值。由于 Result 可能包含错误，所以当它包装的是错误时，expect 就会产生 panic。

这里可能会帮助你查看 expect 的具体实现：

use std::fmt;

// This says, "for all types T and E, where E can be turned into a human
// readable debug message, define the `expect` method."
impl<T, E: fmt::Debug> Result<T, E> {
    fn expect(self, msg: &str) -> T {
        match self {
            Ok(t) => t,
            Err(e) => panic!("{}: {:?}", msg, e),
        }
    }
}

由于这导致 panic，如果 CSV 数据是无效的，那么这就是一个完全可预测的错误，我们已经把本应该是可恢复的错误转变成 不可恢复 错误。我们这样做是因为使用不可恢复的错误有时候是有利的。由于这是一种糟糕的实践，所以在本教程的其余部分，我们会尽量避免使用不可恢复错误。

转换成使用可恢复错误

我们将通过 3 个步骤将不可恢复错误转换为可恢复错误。首先，我们先摆脱 panic，手动打印一个错误消息：

extern crate csv;

use std::io;
use std::process;

fn main() {
    let mut rdr = csv::Reader::from_reader(io::stdin());
    for result in rdr.records() {
        // Examine our Result.
        // If there was no problem, print the record.
        // Otherwise, print the error message and quit the program.
        match result {
            Ok(record) => println!("{:?}", record),
            Err(err) => {
                println!("error reading CSV from <stdin>: {}", err);
                process::exit(1);
            }
        }
    }
}

如果我们再次运行程序，我们将会看到一个错误消息，但不再是一个 panic 的消息：

$ cat invalid
header1,header2
foo,bar
quux,baz,foobar
$ ./target/debug/csvtutor < invalid
StringRecord { position: Some(Position { byte: 16, line: 2, record: 1 }), fields: ["foo", "bar"] }
error reading CSV from <stdin>: CSV error: record 2 (line: 3, byte: 24): found record with 3 fields, but the previous record has 2 fields

转换成可恢复错误的第 2 步是将我们的 CSV 记录循环放入一个单独的函数中。然后这个函数可以选择返回遇到的第一个错误，然后我们的 main 函数可以检查并决定如何处理这个错误。

extern crate csv;

use std::error::Error;
use std::io;
use std::process;

fn main() {
    if let Err(err) = run() {
        println!("{}", err);
        process::exit(1);
    }
}

fn run() -> Result<(), Box<Error>> {
    let mut rdr = csv::Reader::from_reader(io::stdin());
    for result in rdr.records() {
        // Examine our Result.
        // If there was no problem, print the record.
        // Otherwise, convert our error to a Box<Error> and return it.
        match result {
            Err(err) => return Err(From::from(err)),
            Ok(record) => {
              println!("{:?}", record);
            }
        }
    }
    Ok(())
}

我们的新函数 —— run，其返回值类型是 Result<(), Box<Error>>。简单地说，这表示 run 在成功时不返回任何内容，或者发生错误时，它返回 Box<Error>，它表示“任意类型的错误”。如果我们只关心发生的某一些具体错误，检查 Box<Error> 是比较难的。但出于我们的目的，我们需要做的就是优雅地打印错误消息并退出程序。

第 3 步也是最后一步，使用 Rust 语言的一个特殊特性：问号标记符。

extern crate csv;

use std::error::Error;
use std::io;
use std::process;

fn main() {
    if let Err(err) = run() {
        println!("{}", err);
        process::exit(1);
    }
}

fn run() -> Result<(), Box<Error>> {
    let mut rdr = csv::Reader::from_reader(io::stdin());
    for result in rdr.records() {
        // This is effectively the same code as our `match` in the
        // previous example. In other words, `?` is syntactic sugar.
        let record = result?;
        println!("{:?}", record);
    }
    Ok(())
}

最后一步是展示如何使用 ? 自动将错误转发给我们的调用者，而不需要显示地进行 match 匹配处理。我们在使用 ? 时，在本教程中非常重要的一点是，它只能在返回值为 Result 类型的函数中使用。

在结束本节时，我们要提醒一句：使用 Box<Error> 作为错误类型是我们在这里所能接受的最低限度。也就是说，虽然它能让我们的程序优雅地处理错误，但它使调用者很难检查发生的具体错误。然而，由于这是一个关于编写命令行 CSV 解析的教程，因此我们优先考虑自己的需求，使自己满意就行。如果你想了解更多，或者对编写处理 CSV 数据的库感兴趣，那么你可以查阅我的错误处理的博客文章。

话虽如此，如果你所做的只是编写一个一次性的程序来执行 CSV 转换，那么在错误发生时使用 expect 和 panic 之类的方法是非常合理的。不过本教程将努力展示平常使用的正常代码。

-- 待续

posted @ 2020-11-01 22:27 suhanyujie 阅读(532) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

知而不行，是为不知；行而不知，可以致知

【译】用 Rust 实现 csv 解析-part2

Setup

基础的异常处理

转换成使用可恢复错误

公告