基于spaCy的自然语言处理工具库textacy详解

textacy: 自然语言处理，在spaCy之前与之后

textacy 是一个用于执行各种自然语言处理（NLP）任务的 Python 库，它构建于高性能的 spaCy 库之上。将基础任务——分词、词性标注、依存句法分析等——委托给其他库处理，textacy 主要专注于处理之前和之后的阶段。

功能特点

通过便捷的方法和自定义扩展，访问和扩展 spaCy 处理单个或多个文档的核心功能。
加载带有文本内容和元数据的预置数据集，内容涵盖从国会演讲到历史文献再到论坛评论。
在使用 spaCy 处理之前，对原始文本进行清理、规范化和探索。
从处理后的文档中提取结构化信息，包括 n-元词组、实体、缩写、关键词和主谓宾三元组。
使用多种相似度度量方法来比较字符串和序列。
对文档进行分词和向量化，然后训练、解释和可视化主题模型。
计算文本可读性和词汇多样性统计数据，包括 Flesch-Kincaid 年级水平、多语言 Flesch 阅读易读性和类符形符比。
…… 以及更多功能！

相关链接

下载: https://pypi.org/project/textacy
文档: https://textacy.readthedocs.io
源代码: https://github.com/chartbeat-labs/textacy

维护者

你好，各位！:waving_hand:
Burton DeWilde (burtdewilde@gmail.com)

目录

安装
- 依赖项
- 下载数据
快速开始
操作指南
- 处理文本
  - 创建文档
  - 分析文档
- 处理多个文本
  - 创建语料库
  - 分析语料库
- 处理多种语言
教程
- 美国国会工作人员的背景与描述
- 美国国会中的术语与主题
API 参考
- 语言、文档、语料库
- 数据集与资源
- 文本预处理
- 信息提取
- 文本统计
- 文档相似度
- 文档表示
- 主题建模
- 文件输入/输出
- 可视化
- 数据增强
- 杂项
变更日志
- 0.13.0 (2023-04-02)
- 0.12.0 (2021-12-06)
- 0.11.0 (2021-04-12)
- 0.10.1 (2020-08-29)
- 0.10.0 (2020-03-01)
- 0.9.1 (2019-09-03)
- 0.9.0 (2019-09-03)
- 0.8.0 (2019-07-14)
- 0.7.1 (2019-06-25)
- 0.7.0 (2019-05-13)
- 0.6.3 (2019-03-23)
- 0.6.2 (2018-07-19)
- 0.6.1 (2018-04-11)
- 0.6.0 (2018-02-25)
- 0.5.0 (2017-12-04)
- 0.4.2 (2017-11-28)
- 0.4.1 (2017-07-27)
- 0.4.0 (2017-06-21)
- 0.3.4 (2017-04-17)
- 0.3.3 (2017-02-10)
- 0.3.2 (2016-11-15)
- 0.3.1 (2016-10-19)
- 0.3.0 (2016-08-23)
- 0.2.8 (2016-08-03)
- 0.2.5 (2016-07-14)
- 0.2.4 (2016-07-14)
- 0.2.3 (2016-06-20)
- 0.2.2 (2016-05-05)
- 0.2.0 (2016-04-11)
- 0.1.4 (2016-02-26)
- 0.1.3 (2016-02-22)
  更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
  对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码

posted @ 2025-12-05 19:15 CodeShare 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部