使用Python实现简单的文本情感分析

首先,我们需要安装必要的Python库。在命令行中运行以下命令来安装nltk和sklearn:

pip install nltk sklearn

接下来,让我们开始编写代码来实现文本情感分析。首先,我们需要导入所需的库:

import nltk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

然后,我们需要准备一些带有标签的文本数据作为训练集。在这个例子中,我们将使用电影评论数据集,其中包含正面和负面两种情绪倾向的评论文本。

# 假设我们已经有了一个包含正面和负面评论的列表 data,以及对应的情感标签列表 labels
data = ["这个电影太棒了!", "我非常喜欢这部电影!", "我觉得这部电影很无聊。", "我不喜欢这部电影。"]
labels = [1, 1, 0, 0]  # 1表示正面情绪,0表示负面情绪

现在,我们可以将文本数据转换为特征向量。这里我们使用词袋模型(Bag of Words)来表示文本,并使用CountVectorizer类来实现:

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data)

接下来,我们将数据集划分为训练集和测试集,以便后续的训练和评估:

X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

现在,我们可以选择一个合适的分类算法来进行训练。在这里,我们选择朴素贝叶斯分类器(Naive Bayes Classifier):

clf = MultinomialNB()
clf.fit(X_train, y_train)

接下来,我们可以使用训练好的模型对测试集进行预测,并评估模型的性能:

y_pred = clf.predict(X_test)
accuracy = sum(y_pred == y_test) / len(y_test)
print("Accuracy:", accuracy)
posted @ 2025-07-22 16:56  小前端攻城狮  阅读(15)  评论(0)    收藏  举报