构建数据集管理系统

一、方法

1. 研究HuggingFace Dataset做了些什么

2. 将HuggingFace Dataset用起来

3. 搭建自己的框架

4. 研究HuggingFace Dataset做到了什么程度

5. 按需改造或者扩展HuggingFace Dataset

二、HuggingFace Dataset

2.1 Dataset

2.1.1 map

扩增

1. dict_of_lists转换为list_of_dicts

2. 对specific字段进行处理

3. list_of_dicts进行expand

4. list_of_dicts转换为dict_of_lists

2.2 DatasetDict

Dataset字典,value即为Dataset对象。

 三、附录

3.1 数据结构说明

3.1.1 dict_of_lists

核心是dict,dict的value为list,以下为样例

sample = {
 "name": ["Lily", "Lucy", "David"],
 "age": [10, 20, 30]      
}

 3.1.2 list_of_dicts

核心是list,list元素是dict,以下为样例

[
{"name": "Lily", "age": 10},
{"name": "Lucy", "age": 20},
{"name": "David", "age": 30}
]

 

posted @ 2021-12-24 13:53  MurphyCheng  阅读(192)  评论(0)    收藏  举报