中文历时语料库
项目的用途
用途名称 | 技术手段 | 应用场景 |
---|---|---|
词语考察 | 分词、词频统计 | 通用词表等编写 |
语义计算 | 共现词、MI搭配、依存搭配 | 搭配等语义词典编写 |
热度计算 | 流通度计算、术语提取 | 流行语等发布 |
文化计算 | 颜色计算、性别计算 | 文化变迁 |
媒体对比 | 媒体差异计算 | 传播学研究 |
语法研究 | 语法模式检索 | 语法教材与词典编写 |
项目的获取
对于如何获取数据,下表是对数据集的介绍,需要使用的可以开放下载使用,因涉及版权问题,暂只放数据来源。免责声明:该项目由公开渠道收集而成,不可商用,仅可用于科学研究,若有侵权,可联系删除。
数据名称 | 时间跨度 | 数据大小 | 数据来源 |
---|---|---|---|
腾讯新闻 | 2009-2016 | 5GB | https://auto.qq.com/l/201104/scrollnews_15.htm |
人民日报 | 1946-2003 | 3.44GB | http://www.laoziliao.net/rmrb/ |
参考消息 | 1957-2002 | 1.1GB | http://www.laoziliao.net/ckxx/ |
本文来自博客园,作者:艾孜尔江,转载请注明原文链接:https://www.cnblogs.com/ezhar/p/14364144.html