信息检索-文本分类实验日志1
cuda11.2支持vs 2019 16.8及以上以及 vs2017 15.9及以上 安装vs2019
vs2019下载链接:https://visualstudio.microsoft.com/thank-you-downloading-visual-studio/?sku=Community&rel=16
cuda下载网址 https://developer.nvidia.com/cuda-toolkit-archive
安装地址:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.2
查看安装路径 在cmd : set cuda
but!!!!Intel(R) Iris(R) Xe Graphics不可以使用cuda,我放弃了,伤心,安装cpu版本的pytorch吧
下面安装cpu版的pytorch
①安装anaconda:
清华镜像站:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
安装步骤:
②创建pytorch_cpu虚拟环境
在promote输入 创建虚拟环境
conda create -n Pytorch_cpu python=3.10
进入虚拟环境
conda activate Pytorch_cpu
退出:
activate root返回root环境
③在该虚拟环境下安装Pytorch
conda国内镜像源:
pytorch官网:
安装教程如下:
(2)下载数据集
(1)下载数据集
下载地址https://hyper.ai/datasets/5475 下载完AG-News.torrent通过迅雷打开然后下载,不断用7zip解压直到csv文件,包括test.csv train.csv classes.txt readme.txt
(2)了解数据集相关信息
AG News数据集是超过100万篇新闻文章的数据集,含有496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。
训练样本和测试样本:训练样本是用来训练学习机的,测试样本是学习机要识别的对象。
AG_NEWS数据集是一个包含四个类别的新闻文本分类数据集。包括以下四个类别:
World (类别编号: 1) Sports (类别编号: 2) Business (类别编号: 3) Sci/Tec (类别编号: 4) 该数据集有120,000个训练样本和7,600个测试样本。每个样本都是一个新闻文本,并且都被分为上述四个类别中的一个。每个样本有一个唯一的ID,并且是一行纯文本。每个类别包含30,000个训练样本和1,900个测试样本。该数据集上的平均样本长度为48个单词,最小长度为7个单词,最大长度为462个单词。
| 编号类别 | 标题 | 描述 |
|---|
(3)安装torchtext库
进入pytorch虚拟环境
conda activate Pytorch_cpu
安装:
pip install torchtext==0.13.0
降低pytorch的版本:
conda install pytorch=1.12.0 -c soumith
修改torchvision的版本:
pip install torchvision==0.13.0
问题:[WinError 127] 找不到指定的程序
版本不对应
版本对应关系:
| pytorch/torch | torchvision | torchtext |
|---|---|---|
| 1.12.0 | 0.13.0 | 0.13.0 |
2.0.1的pytorch没有对应的torchtext要降级成为1.12.0
#成功运行则安装成功
import torch
import torchvision
import torchtext
print(torchtext.__version__)
print(torchvision.__version__)
print(torch.__version__)
print(torch.cuda.is_available())
浙公网安备 33010602011771号