Python小题目6:jieba库与get函数字符频次统计的结合使用

存在一个文本文件,需要用jieba库分词后再进行字符统计




前言

本题的文本读写很简单,并没有过多的循环。




一、思路

首先进行文件的读取后,再进行文本的分词与统计

1.将文本写入时要用join函数,jion函数之前的元素是str类型。



二、使用步骤



1.引入库,读取文件进行分词(要求分词不重复)

代码如下(示例):

import jieba
f = open('data.txt','r')
lines=f.readlines()
f.close()
D=[]
for line in lines:
    wordList=jieba.lcut(line)#用结巴分词,对每行内容进行分词
    for word in wordList:
        if len(word)<3: #判断词长度,要大于等于3个长度
            continue
        else:
            if word not in D:
                D.append(word)
f=open('out1.txt','w')
f.writelines('\n'.join(D))            
f.close()



2.统计词语频次

代码如下(示例):

import jieba
f=open("data.txt","r")
lines=f.readlines()
f.close()

d = {}
for line in lines:
    wordList=jieba.lcut(line) #用结巴分词,对每行内容进行分词
    for word in wordList:
        if len(word)<3:
            continue
        else:
            d[word]=d.get(word,0)+1
ls=list(d.items())
ls.sort(key=lambda x:x[1],reverse=True)#按照词频由高到低排序
            
f=open('out2.txt','w')
for i in range(len(ls)):
    f.write('{}:{}\n'.format(ls[i][0],ls[i][1]))
f.close()







总结

一个权当无聊时动动脑子的题目罢了

posted @ 2021-12-03 08:30  薛定谔的恐龙  阅读(109)  评论(0)    收藏  举报
{ 好好学习 ❤️ 天天向上 }