摘要: 2024-06-12 ,由上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学等联合创建OmniCorpus,一个达到百亿级别的图文交错数据集。它不仅规模空前,更以其多元化的数据来源和高质量的数据内容,为多模态大语言模型的研究提供了坚实的数据基础。 一、研究背景: 随着互联网数据的爆炸性增长,如何 阅读全文
posted @ 2024-10-08 16:35 数据猎手小k 阅读(258) 评论(0) 推荐(0)
摘要: 2024-09-29 ,NeurIPS发布首个面向专业人士的大型语言模型图分析数据集GraphPro。这是首个目的测试和提升LLMs在图分析任务上表现的基准。该数据集的创建不仅填补了现有基准测试的空白,还为LLMs在图分析领域的应用提供了新的视角。 一、研究背景: 图分析在多个领域中都扮演着至关重要 阅读全文
posted @ 2024-10-08 15:59 数据猎手小k 阅读(30) 评论(0) 推荐(0)
摘要: 2024-08-30,由京东健康、华中科技大学和浙江大学联合收集的第一个真实家庭环境中的多模态数据集MHAD,包含不同拍摄角度和各种家庭场景。它包含了迄今为止最全面的生理信号,是计算机视觉、机器学习和生物医学工程等多个学术研究领域的宝贵资源。 一、研究背景: 在家庭环境中实现非接触式生理监测,对于健 阅读全文
posted @ 2024-10-08 15:55 数据猎手小k 阅读(103) 评论(0) 推荐(0)