基于spaCy的自然语言处理工具库textacy详解

textacy: 自然语言处理,在spaCy之前与之后

textacy 是一个用于执行各种自然语言处理(NLP)任务的 Python 库,它构建于高性能的 spaCy 库之上。将基础任务——分词、词性标注、依存句法分析等——委托给其他库处理,textacy 主要专注于处理之前和之后的阶段。

功能特点

  • 通过便捷的方法和自定义扩展,访问和扩展 spaCy 处理单个或多个文档的核心功能。
  • 加载带有文本内容和元数据的预置数据集,内容涵盖从国会演讲到历史文献再到论坛评论。
  • 在使用 spaCy 处理之前,对原始文本进行清理、规范化和探索。
  • 从处理后的文档中提取结构化信息,包括 n-元词组、实体、缩写、关键词和主谓宾三元组。
  • 使用多种相似度度量方法来比较字符串和序列。
  • 对文档进行分词和向量化,然后训练、解释和可视化主题模型。
  • 计算文本可读性和词汇多样性统计数据,包括 Flesch-Kincaid 年级水平、多语言 Flesch 阅读易读性和类符形符比。
  • …… 以及更多功能!

相关链接

维护者

你好,各位!:waving_hand:
Burton DeWilde (burtdewilde@gmail.com)

目录

  • 安装
    • 依赖项
    • 下载数据
  • 快速开始
  • 操作指南
    • 处理文本
      • 创建文档
      • 分析文档
    • 处理多个文本
      • 创建语料库
      • 分析语料库
    • 处理多种语言
  • 教程
    • 美国国会工作人员的背景与描述
    • 美国国会中的术语与主题
  • API 参考
    • 语言、文档、语料库
    • 数据集与资源
    • 文本预处理
    • 信息提取
    • 文本统计
    • 文档相似度
    • 文档表示
    • 主题建模
    • 文件输入/输出
    • 可视化
    • 数据增强
    • 杂项
  • 变更日志
    • 0.13.0 (2023-04-02)
    • 0.12.0 (2021-12-06)
    • 0.11.0 (2021-04-12)
    • 0.10.1 (2020-08-29)
    • 0.10.0 (2020-03-01)
    • 0.9.1 (2019-09-03)
    • 0.9.0 (2019-09-03)
    • 0.8.0 (2019-07-14)
    • 0.7.1 (2019-06-25)
    • 0.7.0 (2019-05-13)
    • 0.6.3 (2019-03-23)
    • 0.6.2 (2018-07-19)
    • 0.6.1 (2018-04-11)
    • 0.6.0 (2018-02-25)
    • 0.5.0 (2017-12-04)
    • 0.4.2 (2017-11-28)
    • 0.4.1 (2017-07-27)
    • 0.4.0 (2017-06-21)
    • 0.3.4 (2017-04-17)
    • 0.3.3 (2017-02-10)
    • 0.3.2 (2016-11-15)
    • 0.3.1 (2016-10-19)
    • 0.3.0 (2016-08-23)
    • 0.2.8 (2016-08-03)
    • 0.2.5 (2016-07-14)
    • 0.2.4 (2016-07-14)
    • 0.2.3 (2016-06-20)
    • 0.2.2 (2016-05-05)
    • 0.2.0 (2016-04-11)
    • 0.1.4 (2016-02-26)
    • 0.1.3 (2016-02-22)
      更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
      对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-05 19:15  CodeShare  阅读(2)  评论(0)    收藏  举报