构建数据集管理系统
一、方法
1. 研究HuggingFace Dataset做了些什么
2. 将HuggingFace Dataset用起来
3. 搭建自己的框架
4. 研究HuggingFace Dataset做到了什么程度
5. 按需改造或者扩展HuggingFace Dataset
二、HuggingFace Dataset
2.1 Dataset
2.1.1 map
扩增
1. dict_of_lists转换为list_of_dicts
2. 对specific字段进行处理
3. list_of_dicts进行expand
4. list_of_dicts转换为dict_of_lists
2.2 DatasetDict
Dataset字典,value即为Dataset对象。
三、附录
3.1 数据结构说明
3.1.1 dict_of_lists
核心是dict,dict的value为list,以下为样例
sample = {
"name": ["Lily", "Lucy", "David"],
"age": [10, 20, 30]
}
3.1.2 list_of_dicts
核心是list,list元素是dict,以下为样例
[
{"name": "Lily", "age": 10},
{"name": "Lucy", "age": 20},
{"name": "David", "age": 30}
]

浙公网安备 33010602011771号