Data Collection

众所周知，计算机领域论文是要以实验为基础的，而实验的原料就是数据。不管是在图像，文字或者语音领域，开源的数据都十分宝贵和重要。这里主要收集各领域的一些常用的公开数据集。

计算机视觉：

【ImageNet】

【Caltech Pedestrian Dataset】

简介：行人检测数据集

网址：https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

细节：

（1）摄像头位于车上

（2）图片模糊

（3）行人少而小，大多数图片不包含行人

（4）原始数据为视频，可以采样为图片

（5）官网给出了各种方法的性能，给出了evaluation的代码。

自然语言处理：

【维基百科简体中文语料】

简介：较大规模的中文语料

网址：http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

细节：

（1）这个压缩包包含标题和正文

（2）用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取数据

（3）抽取命令 bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt

（4）内容为简繁体混杂，需要https://github.com/BYVoid/OpenCC，https://code.google.com/archive/p/opencc/wikis/Install.wiki解决，运行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini

（5）参考使用网站：http://licstar.net/archives/262

语音处理：

数字医学数据：

posted @ 2016-12-12 16:17 Shiyu_Huang 阅读(241) 评论(0) 收藏举报

刷新页面返回顶部

黄世宇@小鹏汽车，OpenRL Lab负责人，强化学习，LLM，VLM, GUI Agent, Omni[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！

Data Collection

黄世宇@小鹏汽车，OpenRL Lab负责人，强化学习，LLM，VLM, GUI Agent, Omni
[OpenRL][知乎][GitHub][Linkedin]
如果你对人工智能前沿感兴趣，欢迎联系并加入我们！