05 2025 档案
摘要:基于TF的词向量矩阵 import jieba from sklearn.feature_extraction.text import CountVectorizer import jieba import pandas as pd # 示例文档集 documents = [ "这是第一个文档。",
阅读全文
摘要:词云的基本绘制 import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt import re from PIL import Image import numpy as np #读取文本内容 def pl
阅读全文
摘要:简单预处理 说明:将英文文本进行分词操作,并使用tf或者tfidf构建词袋模型 from gensim.utils import simple_preprocess from gensim.parsing.preprocessing import STOPWORDS from gensim impo
阅读全文
摘要:jieba jieba可以用于“分词”、“词性标注”、“关键词提取”等任务 分词 import jieba # jieba.load_userdict("chinese_dict.txt")#加载词典,词典的形式为:单词 词频 词性 # jieba.add_word("区块链") # 动态添加新词
阅读全文
摘要:基本使用 import logging # 创建 logger 对象,并为对象设置名字,用于区分不同模块之间的日志 logger = logging.getLogger('my_app') # 设置整个日志输出的默认等级,当设置DEBUG等级时,默认全部可以输出,但是后面的控制台对象和文件处理对象,
阅读全文
摘要:Counter计数器 Counter 是一个字典子类,用于计数可哈希对象。可以用作计算词频。 from collections import Counter # 统计字符出现次数 cnt = Counter('abracadabra') print(cnt) # Counter({'a': 5, '
阅读全文

浙公网安备 33010602011771号