基于spaCy的自然语言处理工具库textacy详解
textacy: 自然语言处理,在spaCy之前与之后
textacy 是一个用于执行各种自然语言处理(NLP)任务的 Python 库,它构建于高性能的 spaCy 库之上。将基础任务——分词、词性标注、依存句法分析等——委托给其他库处理,textacy 主要专注于处理之前和之后的阶段。
功能特点
- 通过便捷的方法和自定义扩展,访问和扩展 spaCy 处理单个或多个文档的核心功能。
- 加载带有文本内容和元数据的预置数据集,内容涵盖从国会演讲到历史文献再到论坛评论。
- 在使用 spaCy 处理之前,对原始文本进行清理、规范化和探索。
- 从处理后的文档中提取结构化信息,包括 n-元词组、实体、缩写、关键词和主谓宾三元组。
- 使用多种相似度度量方法来比较字符串和序列。
- 对文档进行分词和向量化,然后训练、解释和可视化主题模型。
- 计算文本可读性和词汇多样性统计数据,包括 Flesch-Kincaid 年级水平、多语言 Flesch 阅读易读性和类符形符比。
- …… 以及更多功能!
相关链接
- 下载: https://pypi.org/project/textacy
- 文档: https://textacy.readthedocs.io
- 源代码: https://github.com/chartbeat-labs/textacy
维护者
你好,各位!:waving_hand:
Burton DeWilde (burtdewilde@gmail.com)
目录
- 安装
- 依赖项
- 下载数据
- 快速开始
- 操作指南
- 处理文本
- 创建文档
- 分析文档
- 处理多个文本
- 创建语料库
- 分析语料库
- 处理多种语言
- 处理文本
- 教程
- 美国国会工作人员的背景与描述
- 美国国会中的术语与主题
- API 参考
- 语言、文档、语料库
- 数据集与资源
- 文本预处理
- 信息提取
- 文本统计
- 文档相似度
- 文档表示
- 主题建模
- 文件输入/输出
- 可视化
- 数据增强
- 杂项
- 变更日志
- 0.13.0 (2023-04-02)
- 0.12.0 (2021-12-06)
- 0.11.0 (2021-04-12)
- 0.10.1 (2020-08-29)
- 0.10.0 (2020-03-01)
- 0.9.1 (2019-09-03)
- 0.9.0 (2019-09-03)
- 0.8.0 (2019-07-14)
- 0.7.1 (2019-06-25)
- 0.7.0 (2019-05-13)
- 0.6.3 (2019-03-23)
- 0.6.2 (2018-07-19)
- 0.6.1 (2018-04-11)
- 0.6.0 (2018-02-25)
- 0.5.0 (2017-12-04)
- 0.4.2 (2017-11-28)
- 0.4.1 (2017-07-27)
- 0.4.0 (2017-06-21)
- 0.3.4 (2017-04-17)
- 0.3.3 (2017-02-10)
- 0.3.2 (2016-11-15)
- 0.3.1 (2016-10-19)
- 0.3.0 (2016-08-23)
- 0.2.8 (2016-08-03)
- 0.2.5 (2016-07-14)
- 0.2.4 (2016-07-14)
- 0.2.3 (2016-06-20)
- 0.2.2 (2016-05-05)
- 0.2.0 (2016-04-11)
- 0.1.4 (2016-02-26)
- 0.1.3 (2016-02-22)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号