数据猎手小k - 博客园

2025年4月2日

iNatAg:一个大规模的农业图像数据集，包含 2,959 个物种的 470 多万张图像。

摘要： 2025-03-29,由加州大学戴维斯分校和普林斯顿大学等机构联合创建的iNatAg数据集，包含 2,959 个物种的 470 多万张图像，为精准农业和可持续发展提供了强大的支持。该数据集不仅能够帮助研究人员更好地识别农作物和杂草，还能为农业机器学习工作流程提供直接的访问和集成，极大地推动了农业领域阅读全文

posted @ 2025-04-02 15:04 数据猎手小k 阅读(302) 评论(0) 推荐(0)

2025年4月1日

SynTIDE：首个基于文本生成水下图像与密集注释数据集

摘要： 2025-03-28，由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE（Text-to-Image and DEnse annotation generation method）。该方法仅依赖文本输入，就能同时生成逼真的水下图像和多种高度一致的密集注释（如深度图和语义分割掩码）。TI 阅读全文

posted @ 2025-04-01 14:24 数据猎手小k 阅读(201) 评论(0) 推荐(0)

2024年12月9日

首个支持多地图和多相机的长期校园环境视觉惯性定位数据集

摘要： 2024-12-06,由浙江大学工业控制技术国家重点实验室联合杭州师范大学信息科学与工程学院以及香港科技大学的研究人员共同创建了一个多相机、多地图的视觉惯性定位系统数据集，该数据集通过提供长期、一致且无漂移的位置反馈，对机器人的自主导航和控制领域具有重要意义。一、研究背景：随着自主机器人技术的快阅读全文

posted @ 2024-12-09 18:23 数据猎手小k 阅读(75) 评论(0) 推荐(0)

EgoPlan-Bench2: 包含1321个高质量的多选题问答对，覆盖工作、日常生活、爱好和娱乐四大领域，共24个详细场景

摘要： 2024-12-06，由香港大学与腾讯PCG的ARC实验室联合创建了EgoPlan-Bench2数据集，这个数据集通过模拟人类日常生活中的复杂任务，为多模态大型语言模型（MLLMs）的规划能力提供了一个严格和全面的评估平台，对于推动人工智能向通用智能发展具有重要意义。一、研究背景：随着多模态大型阅读全文

posted @ 2024-12-09 17:31 数据猎手小k 阅读(81) 评论(0) 推荐(0)

2024年12月5日

EmoAva:首个大规模、高质量的文本到3D表情映射数据集。

摘要： 2024-12-03，由哈尔滨工业大学（深圳）的计算机科学系联合澳门大学、新加坡南洋理工大学等机构创建了EmoAva数据集，这是首个大规模、高质量的文本到3D表情映射数据集，对于推动情感丰富的3D头像生成技术的发展具有重要意义。一、研究背景：在人工智能领域，尤其是情感计算社区，生成能够反映人类面阅读全文

posted @ 2024-12-05 16:20 数据猎手小k 阅读(82) 评论(0) 推荐(0)

TxT360: 一个大规模、高质量、多源融合的数据集，专为预训练大型语言模型设计。

摘要： 2024-10-04, LLM360项目团队创建了TxT360数据集，这个数据集通过整合多种数据源，为预训练大型语言模型提供了丰富的训练材料，具有重要的研究和应用价值。一、研究背景：随着人工智能技术的发展，尤其是自然语言处理（NLP）领域的进步，预训练大型语言模型（LLM）已成为推动NLP技术发阅读全文

posted @ 2024-12-05 11:43 数据猎手小k 阅读(127) 评论(0) 推荐(0)

2024年12月4日

WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集，专为训练大型语言模型和 AI 应用程序而设计。

摘要： 2024-11-30 ，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。一、让我们一起来看一下WebRover WebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并阅读全文

posted @ 2024-12-04 15:04 数据猎手小k 阅读(65) 评论(0) 推荐(0)

Public Domain 12M：迄今最大的公共领域图像-文本数据集，采用创新治理机制.

摘要： 2024-10-30,由Spawning台创建的Public Domain 12M（PD12M）数据集，包含了1240万张高质量的公共领域和CC0许可的图像及其合成标题，旨在训练文本到图像的模型。这个数据集不仅规模巨大，能够训练基础模型，同时最小化版权问题，还引入了社区驱动的数据治理机制，以减少伤害阅读全文

posted @ 2024-12-04 14:13 数据猎手小k 阅读(121) 评论(0) 推荐(0)

Open X-Embodiment Dataset：迄今为止最大的开源真实机器人数据集,包含超过1百万真实机器人轨迹的大规模数据集，覆盖了来自全球多个研究机构的22个不同机器人平台。

摘要： 2024-06-01,由谷歌 DeepMind 联手斯坦福大学等机构联合推出Open X-Embodiment Dataset。这是迄今为止最大的开源真实机器人数据集。它包含 100 多万条真实机器人轨迹，涵盖 22 个机器人实例，从单臂机器人到双手机器人和四足机器人。为机器人学习领域提供了一个全新阅读全文

posted @ 2024-12-04 13:38 数据猎手小k 阅读(632) 评论(0) 推荐(0)

2024年12月3日

GEOBench-VLM:专为地理空间任务设计的视觉-语言模型基准测试数据集

摘要： 2024-11-29 ,由穆罕默德·本·扎耶德人工智能大学等机构创建了GEOBench-VLM数据集，目的评估视觉-语言模型（VLM）在地理空间任务中的表现。该数据集的推出填补了现有基准测试在地理空间应用中的空白，提供了超过10,000个经过人工验证的指令，推动了环境监测、城市规划和灾害管理等领域的阅读全文

posted @ 2024-12-03 17:20 数据猎手小k 阅读(115) 评论(0) 推荐(0)

公告