合集-自然语言处理

摘要:jieba jieba可以用于“分词”、“词性标注”、“关键词提取”等任务 分词 import jieba # jieba.load_userdict("chinese_dict.txt")#加载词典,词典的形式为:单词 词频 词性 # jieba.add_word("区块链") # 动态添加新词 阅读全文
posted @ 2025-05-24 23:16 CodeCraftsMan 阅读(162) 评论(0) 推荐(0)
摘要:简单预处理 说明:将英文文本进行分词操作,并使用tf或者tfidf构建词袋模型 from gensim.utils import simple_preprocess from gensim.parsing.preprocessing import STOPWORDS from gensim impo 阅读全文
posted @ 2025-05-27 10:51 CodeCraftsMan 阅读(113) 评论(0) 推荐(0)
摘要:词云的基本绘制 import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt import re from PIL import Image import numpy as np #读取文本内容 def pl 阅读全文
posted @ 2025-05-27 17:00 CodeCraftsMan 阅读(68) 评论(0) 推荐(0)
摘要:基于TF的词向量矩阵 import jieba from sklearn.feature_extraction.text import CountVectorizer import jieba import pandas as pd # 示例文档集 documents = [ "这是第一个文档。", 阅读全文
posted @ 2025-05-28 09:37 CodeCraftsMan 阅读(43) 评论(0) 推荐(0)
摘要:pad_sequence torch.nn.utils.rnn.pad_sequence 是一个用于填充变长序列的工具函数,常用于自然语言处理(NLP)或时间序列任务中,将不同长度的序列批量处理为相同长度。 import torch from torch.nn.utils.rnn import pa 阅读全文
posted @ 2025-06-16 16:45 CodeCraftsMan 阅读(202) 评论(0) 推荐(0)
摘要:以贝叶斯算法为例 from sklearn.naive_bayes import GaussianNB,MultinomialNB from sklearn.datasets import make_classification from sklearn.model_selection import 阅读全文
posted @ 2025-06-16 17:27 CodeCraftsMan 阅读(452) 评论(0) 推荐(0)
摘要:huggingface下载并加载模型的方式 使用from_pretrained()下载模型 第一步:在huggingface上找到想要下载的模型,建议使用huggingface镜像网站 第二步:在找到想要的模型后,需要为cmd或bash设置镜像链接,注意:这个是临时设置,终端关闭后需要重新设置 #w 阅读全文
posted @ 2025-06-30 11:44 CodeCraftsMan 阅读(816) 评论(0) 推荐(0)