• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
道简

文本分类语料库

名称: 文本分类语料库
关键词: 文本分类、互联网语料
摘要: 文本分类语料库设计为基于搜狐分类目录手工编辑的网页分类结果组织成的网页、分类结果及基准分类算法在内的综合数据集合。为各种从事中文文本分类工作的研究者提供一个标准的较大规模的研究平台。
介绍:

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。
应用案例:中文文本分类,主题跟踪与检测等。

说明:

语料库数据包括:
[1] 用于分类的新闻语料,按照SOGOU-T网页语料库格式整理
[2] 分类体系说明
[3] 数据集合统计信息
数据下载声明见“SogouLab 数据使用许可证”
Please read the "License for Use of Sogou Lab Data" carefully before downloading.

下载: mini版(tar.gz格式)    136K
mini版(zip格式)    167K
精简版(tar.gz格式)    24M
精简版(zip格式)    30M
完整版 107M(由于文件较大,需要注册后获取ftp地址下载)
分类编码对照表(txt格式)       138字节
发表于 2010-12-24 12:27  jorbin  阅读(915)  评论(0)    收藏  举报
 
刷新页面返回顶部
 

 公告


 导航

  • 博客园
  • 首页
  • 新随笔
  • 新文章
  • 联系
  • 订阅 订阅
  • 管理

博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3