spacy安装以及使用

spaCy简介

spaCy是一个用于高级自然语言处理的Python库。它由Matthew Honnibal和Ines Montani于2015年创立。spaCy的设计目标是高性能、易于使用和可扩展性。spaCy内置了多种预训练模型，可用于处理多种语言，包括英语、法语、德语、中文等。它还提供了许多工具和接口，以便用户能够轻松地开发自定义NLP应用程序。

安装库

国内清华镜像
pip install -U spcay -i https://pypi.tuna.tsinghua.edu.cn/simple

安装模型

https://github.com/explosion/spacy-models/releases

我选的中文最大的模型 zh_core_web_trf-3.7.2 。注意此处要和spacy的版本一致
396M的体积，官网下载有点慢，建议复制链接，用迅雷下载。

实体识别

import spacy
nlp = spacy.load("zh_core_web_sm")
text = '广东省广州市'
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.label_)```


广东省 GPE
广州市 GPE

词性标注

词性标注是为文本中的每个单词分配一个词性（例如名词、动词等）的过程。spaCy使用预训练模型自动完成词性标注。

for token in doc:
    print(token.text, token.pos_)

命名实体识别

 for ent in doc.ents:
    print(ent.text, ent.label_)

依存关系解析

依存关系解析是确定文本中单词之间的句法关系（如主语、宾语等）的过程。spaCy可以自动分析单词之间的依存关系，从而帮助我们更好地理解文本结构。

for token in doc:
    print(token.text, token.dep_, token.head.text)

以上列举了spaCy的一些基本功能。实际上，spaCy还包括许多其他功能，如文本相似度计算、词向量生成、句子边界检测等。你可以通过阅读spaCy官方文档来了解更多关于spaCy的信息。

posted on 2023-12-28 17:05 耀扬阅读(601) 评论(0) 收藏举报

刷新页面返回顶部

耀扬