会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
dianshu
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
2025年9月15日
23,463张无人机和卫星图像高质量标注,覆盖20个类别包括港口船舶车辆飞机,支持YOLO和VOC格式,专为深度学习目标检测算法优化,训练集验证集均衡划分提升模型鲁棒性,填补小目标检测数据空白
摘要: 引言与背景 在遥感图像分析领域,小目标检测一直是一项具有挑战性的任务,对城市规划、环境监测、交通管理和国家安全等众多领域都具有重要意义。本遥感小目标检测数据集应运而生,填补了该领域高质量标注数据的空白。这个数据集特别针对无人机和卫星遥感图像中的小目标检测任务设计,为计算机视觉算法在遥感领域的应用提供
阅读全文
posted @ 2025-09-15 14:25 一条数据库
阅读(18)
评论(0)
推荐(0)
2025年9月10日
小红书全量笔记数据集(含标题、正文、标签、互动量、图片等),可用于NLP、推荐算法、大模型训练、爆款文章生成、精准营销与市场分析
摘要: 小红书作为年轻人生活方式分享平台,其UGC内容具有重要研究价值。该数据集包含笔记标题、正文、标签、互动数据、用户信息等结构化字段,支持NLP分析、推荐算法训练、爆款内容生成和商业营销研究。应用场景包括情感分析、话题分类、用户画像构建、多模态推荐等。数据样例展示了笔记内容、图片链接及用户互动情况,为研究者提供真实场景下的社交媒体数据分析基础。该数据集特别适合小红书生态研究,也可为其他平台提供参考模型。
阅读全文
posted @ 2025-09-10 15:23 一条数据库
阅读(181)
评论(0)
推荐(0)
1.2 亿篇论文数据集,多学科学术语料库,涵盖医学、化学、生物学、人文、物理、工程、数学、生态、经济与计算机科学,用于 NLP、知识图谱与大模型训练
摘要: 本文介绍了一个规模达1.2亿篇、总量110TB的跨学科论文数据集,覆盖医学、理工、人文等主流领域。该数据集具有规模大、学科全、质量高等优势,适用于NLP、知识图谱构建、大模型训练等多种智能应用场景。具体可支持文本分类、语义检索、学术网络分析、科研趋势预测等任务,为学术研究和人工智能发展提供高质量语料基础。
阅读全文
posted @ 2025-09-10 15:13 一条数据库
阅读(30)
评论(0)
推荐(0)
三万小时PB级院线级电影数据集,包含完整视频、音频和字幕多模态资源,专为视频大模型训练和多模态研究设计,适用于文生视频生成、影视剪辑、语义检索及智能内容管理
摘要: 本文介绍了一种院线级电影多模态数据集,专为训练视频大模型设计。该数据集包含数百部高清电影(1080p-4K),总时长超3万小时,拆分为严格对齐的视频流、音频流和字幕文件,并附带完整IMDB元数据。相比网络视频,其优势在于:高清画质、专业内容质量、丰富场景多样性,以及多模态数据的精确对齐和结构化管理。该数据集支持文生视频训练、多模态融合研究、视频检索管理等应用场景,能有效提升模型在视频理解、生成与编辑方面的能力。
阅读全文
posted @ 2025-09-10 15:09 一条数据库
阅读(42)
评论(0)
推荐(0)
微信公众号原创文章数据集,涵盖科技财经教育娱乐美食旅游等多领域,支持内容推荐、舆情分析、情感识别与大模型训练,系统化整理含标题正文互动指标,NLP与AIGC高质量语料首选
摘要: 微信公众号作为国内最大内容平台,每日产生海量原创文章,覆盖科技、财经、教育等全领域。这些数据在推荐系统、舆情分析和大模型训练中具有重要价值。文章详细解析了公众号数据结构与应用场景,包括NLP情感分析、话题分类、用户画像构建、多模态推荐等内容,并强调数据对爆款内容生成和商业分析的支撑作用。
阅读全文
posted @ 2025-09-10 15:05 一条数据库
阅读(24)
评论(0)
推荐(0)
2025年9月4日
1500小时高质量真人采集语音,专为方言语音识别模型训练、多语言语音助手智能客服、车载语音交互智能家居及大模型语音能力增强设计,提升识别准确性
摘要: 引言与背景 方言作为中华文化的重要组成部分,承载着丰富的地域特色与表达习惯。四川方言在全国拥有数以千万计的使用群体,广泛应用于日常交流、媒体传播和商业服务。 然而,当前语音识别系统多以普通话为主,对四川方言等地方语言的识别准确率仍然不足,导致在智能客服、语音助手、车载交互等场景中存在理解偏差和识别错
阅读全文
posted @ 2025-09-04 13:56 一条数据库
阅读(31)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
公告