code
查看分词结果,输入为列表,元素为词
e.g.,
输入
list = ['股权 力诺 华亿 实业 创业投资 持有的 万股 股东 上海宝钢集团 签署 股权转让协议','股权 中国证监会 批准 豁免 要约收购 义务 联通公司 股权 权益 已经 完成']
# 查看所有分词的结果
from collections import Counter
def filter_segword(lst):
# 原始列表
# 统计所有元素出现的次数
elements = []
for item in lst:
elements.extend(item.split()) # 拆分每个字符串并添加到elements列表
# 使用Counter统计元素出现次数
element_counts = Counter(elements)
# 计算每个元素出现的频率
total_elements = len(elements)
min_frequency = 0.005 * total_elements # 10% 的最小出现次数
# 剔除出现次数小于0.5%的元素
filtered_elements = [element for element, count in element_counts.items() if count >= min_frequency]
return filtered_elements
filtered_segword = filter_segword(results)
with open('filtered_segword.txt', 'w') as f:
for line in filtered_segword:
f.write(line+'\n')

浙公网安备 33010602011771号