modelscope数据使用方法

modelscope数据使用方法

一 在线环境加载数据

直接在线加载

1 from modelscope.msdatasets import MsDataset
2 data = MsDataset.load('testUser/GSM8K_zh',
3                       subset_name='default',
4                       split='train',
5                       # split='test',validation
6                       cache_dir=r'C:\Users\xialiu05\Documents\R1',
7                       )

其中cache_dir 是指定缓存在某个路径。

 

二 数据查看

1 import pandas as pd
2 
3 data = pd.DataFrame(data)
4 data = data[['question_zh', 'answer_only']]

L3:data 转为dataframe格式方便查看。

先查看数据的列名都是什么

 1 df.columns.values.tolist()

2 df.info()

Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   question     8792 non-null   object
 1   answer_only  8792 non-null   object
 2   answer       8792 non-null   object
 3   question_zh  8792 non-null   object
 4   answer_zh    8792 non-null   object
 5   split        8792 non-null   object

查看:df['split'].value_counts()

3 df.head(3)

 选取一个小的数据集:data= df[['question_zh', 'answer_only']][:10]

三 离线环境加载数据

a]完整的把 章节一中的目录拷贝到离线环境。

b]加载数据集

data = MsDataset.load(data_files=train_file)

或者更直接的办法:

1 data = MsDataset.load('testUser/GSM8K_zh',
2                       subset_name='default',
3                       split='train',
4                       # split='test',validation
5                       cache_dir=r'C:\Users\xialiu05\Documents\R1',
6                       )

其中的cache_dir一定需要准确,这样也会从这个目录中读取。

 

posted on 2025-06-01 19:38  lexn  阅读(471)  评论(0)    收藏  举报

导航