code

查看分词结果,输入为列表,元素为词
e.g.,
输入
list = ['股权 力诺 华亿 实业 创业投资 持有的 万股 股东 上海宝钢集团 签署 股权转让协议','股权 中国证监会 批准 豁免 要约收购 义务 联通公司 股权 权益 已经 完成']

# 查看所有分词的结果
from collections import Counter
def filter_segword(lst):
    # 原始列表
    # 统计所有元素出现的次数
    elements = []
    for item in lst:
        elements.extend(item.split())  # 拆分每个字符串并添加到elements列表
    # 使用Counter统计元素出现次数
    element_counts = Counter(elements)
    # 计算每个元素出现的频率
    total_elements = len(elements)
    min_frequency = 0.005 * total_elements  # 10% 的最小出现次数
    # 剔除出现次数小于0.5%的元素
    filtered_elements = [element for element, count in element_counts.items() if count >= min_frequency]
    return filtered_elements

filtered_segword = filter_segword(results)

with open('filtered_segword.txt', 'w') as f:
    for line in filtered_segword:
        f.write(line+'\n')
posted @ 2024-09-07 19:35  Rae的笔记本  阅读(27)  评论(0)    收藏  举报