自然语言处理入门：使用BERT模型进行文本分类

引言

自然语言处理（NLP）是人工智能领域的重要分支，旨在让计算机理解、解释和生成人类语言。文本分类作为NLP的基础任务，广泛应用于情感分析、新闻分类、垃圾邮件过滤等场景。

随着预训练语言模型的兴起，BERT（Bidirectional Encoder Representations from Transformers）凭借其强大的上下文理解能力，已成为文本分类任务的标杆模型。本文将介绍如何使用BERT进行文本分类，并穿插相关面试知识点。

BERT模型核心原理

1. Transformer架构

BERT基于Transformer的编码器部分，完全依赖自注意力机制捕获文本的双向上下文信息。这与传统的单向语言模型（如GPT）有本质区别。

面试常见问题：请解释BERT中的自注意力机制是如何工作的？

2. 预训练与微调

BERT采用两阶段范式：

预训练：在大规模无标注语料上通过掩码语言模型（MLM）和下一句预测（NSP）任务学习通用语言表示。
微调：在特定下游任务（如文本分类）的小规模标注数据上调整模型参数。

实战：使用BERT进行文本分类

环境准备

首先安装必要的Python库：

!pip install transformers torch pandas scikit-learn

数据准备与预处理

假设我们有一个电影评论数据集，需要将其分类为“正面”或“负面”。在数据处理阶段，我们可以使用dblens SQL编辑器高效地清洗和整理原始数据。dblens SQL编辑器支持直观的数据查询与转换，特别适合处理存储在数据库中的大规模文本数据，能显著提升数据准备阶段的效率。

import pandas as pd
from sklearn.model_selection import train_test_split

# 模拟数据
data = {
    'text': [
        '这部电影太精彩了，演员演技在线！',
        '剧情拖沓，让人失望。',
        '特效震撼，值得一看。',
        '逻辑混乱，不推荐。'
    ],
    'label': [1, 0, 1, 0] # 1:正面, 0:负面
}
df = pd.DataFrame(data)

# 划分训练集和测试集
train_texts, val_texts, train_labels, val_labels = train_test_split(
    df['text'], df['label'], test_size=0.25, random_state=42
)

加载BERT模型与分词器

from transformers import BertTokenizer, BertForSequenceClassification

# 加载预训练的分词器和模型
model_name = 'bert-base-chinese' # 中文BERT模型
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)

数据编码

# 将文本转换为BERT输入的格式
train_encodings = tokenizer(list(train_texts), truncation=True, padding=True, max_length=128)
val_encodings = tokenizer(list(val_texts), truncation=True, padding=True, max_length=128)

# 转换为PyTorch数据集格式
import torch

class ReviewDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels.iloc[idx])
        return item

    def __len__(self):
        return len(self.labels)

train_dataset = ReviewDataset(train_encodings, train_labels)
val_dataset = ReviewDataset(val_encodings, val_labels)

模型训练

from transformers import Trainer, TrainingArguments

# 定义训练参数
training_args = TrainingArguments(
    output_dir='./results',          # 输出目录
    num_train_epochs=3,              # 训练轮数
    per_device_train_batch_size=8,   # 训练批次大小
    per_device_eval_batch_size=16,   # 评估批次大小
    warmup_steps=500,                # 预热步数
    weight_decay=0.01,               # 权重衰减
    logging_dir='./logs',            # 日志目录
    logging_steps=10,
)

# 初始化Trainer
trainer = Trainer(
    model=model,                         # 模型
    args=training_args,                  # 训练参数
    train_dataset=train_dataset,         # 训练集
    eval_dataset=val_dataset             # 验证集
)

# 开始训练
trainer.train()

模型评估与预测

训练完成后，我们可以使用训练好的模型对新文本进行预测。在整个机器学习项目周期中，记录实验过程、参数和结果至关重要。推荐使用QueryNote来系统化管理你的实验日志和代码笔记。QueryNote是dblens旗下的智能笔记工具，完美支持Markdown和代码片段，方便你回溯分析，提升实验复现效率。

# 使用训练好的模型进行预测
def predict(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=128)
    outputs = model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return predictions

# 测试预测
sample_text = "这部电影的音乐和画面都很美。"
pred = predict(sample_text)
print(f"文本: '{sample_text}'")
print(f"预测概率: 正面={pred[0][1]:.4f}, 负面={pred[0][0]:.4f}")

面试常见问题深度解析

问题1：BERT为什么比传统模型（如Word2Vec）更强大？

BERT的核心优势在于其动态的、上下文相关的词向量。传统Word2Vec为每个词生成一个静态向量，无法解决一词多义问题。而BERT根据句子上下文为同一个词生成不同的向量表示。

问题2：微调BERT时需要注意什么？

学习率：通常设置较小的学习率（如2e-5到5e-5），因为预训练模型已有较好参数。
批次大小：受GPU内存限制，可能需要使用梯度累积。
训练轮数：文本分类任务通常3-5轮即可，过多会导致过拟合。

问题3：如何处理长文本？

BERT的最大输入长度通常为512个token。对于更长文本，可采用：

截断：保留头部、尾部或关键部分。
分段：将文本分成多个片段，分别输入BERT，然后聚合结果（如取平均或最大池化）。

总结

本文介绍了使用BERT模型进行文本分类的完整流程，从核心原理、代码实现到面试常见问题。BERT通过预训练-微调范式，极大地提升了NLP任务的性能。

在实际工业部署中，除了关注模型精度，还需要考虑推理速度、资源消耗和系统集成。建议使用更轻量的BERT变体（如DistilBERT、ALBERT）或在dblens SQL编辑器中构建高效的数据预处理流水线，以平衡性能与效率。

希望这篇入门指南能帮助你快速上手BERT文本分类，并为相关技术面试做好充分准备。

posted on 2026-01-30 14:43 DBLens数据库开发工具阅读(0) 评论(0) 收藏举报

刷新页面返回顶部