code

查看分词结果，输入为列表，元素为词
e.g.,
输入
list = ['股权力诺华亿实业创业投资持有的万股股东上海宝钢集团签署股权转让协议','股权中国证监会批准豁免要约收购义务联通公司股权权益已经完成']

# 查看所有分词的结果
from collections import Counter
def filter_segword(lst):
    # 原始列表
    # 统计所有元素出现的次数
    elements = []
    for item in lst:
        elements.extend(item.split())  # 拆分每个字符串并添加到elements列表
    # 使用Counter统计元素出现次数
    element_counts = Counter(elements)
    # 计算每个元素出现的频率
    total_elements = len(elements)
    min_frequency = 0.005 * total_elements  # 10% 的最小出现次数
    # 剔除出现次数小于0.5%的元素
    filtered_elements = [element for element, count in element_counts.items() if count >= min_frequency]
    return filtered_elements

filtered_segword = filter_segword(results)

with open('filtered_segword.txt', 'w') as f:
    for line in filtered_segword:
        f.write(line+'\n')

posted @ 2024-09-07 19:35 Rae的笔记本阅读(27) 评论(0) 收藏举报

刷新页面返回顶部

HR的笔记本

code

公告