modelscope数据使用方法
modelscope数据使用方法
一 在线环境加载数据
直接在线加载
1 from modelscope.msdatasets import MsDataset 2 data = MsDataset.load('testUser/GSM8K_zh', 3 subset_name='default', 4 split='train', 5 # split='test',validation 6 cache_dir=r'C:\Users\xialiu05\Documents\R1', 7 )
其中cache_dir 是指定缓存在某个路径。
二 数据查看
1 import pandas as pd 2 3 data = pd.DataFrame(data) 4 data = data[['question_zh', 'answer_only']]
L3:data 转为dataframe格式方便查看。
先查看数据的列名都是什么
1 df.columns.values.tolist()
2 df.info()
Data columns (total 6 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 question 8792 non-null object 1 answer_only 8792 non-null object 2 answer 8792 non-null object 3 question_zh 8792 non-null object 4 answer_zh 8792 non-null object 5 split 8792 non-null object
查看:df['split'].value_counts()
3 df.head(3)
选取一个小的数据集:data= df[['question_zh', 'answer_only']][:10]
三 离线环境加载数据
a]完整的把 章节一中的目录拷贝到离线环境。
b]加载数据集
data = MsDataset.load(data_files=train_file)
或者更直接的办法:
1 data = MsDataset.load('testUser/GSM8K_zh', 2 subset_name='default', 3 split='train', 4 # split='test',validation 5 cache_dir=r'C:\Users\xialiu05\Documents\R1', 6 )
其中的cache_dir一定需要准确,这样也会从这个目录中读取。
浙公网安备 33010602011771号