Python小题目6：jieba库与get函数字符频次统计的结合使用

存在一个文本文件，需要用jieba库分词后再进行字符统计

前言

本题的文本读写很简单，并没有过多的循环。

一、思路

首先进行文件的读取后，再进行文本的分词与统计

1.将文本写入时要用join函数，jion函数之前的元素是str类型。

二、使用步骤

1.引入库，读取文件进行分词（要求分词不重复）

代码如下（示例）：

import jieba
f = open('data.txt','r')
lines=f.readlines()
f.close()
D=[]
for line in lines:
    wordList=jieba.lcut(line)#用结巴分词，对每行内容进行分词
    for word in wordList:
        if len(word)<3: #判断词长度，要大于等于3个长度
            continue
        else:
            if word not in D:
                D.append(word)
f=open('out1.txt','w')
f.writelines('\n'.join(D))            
f.close()

2.统计词语频次

代码如下（示例）：

import jieba
f=open("data.txt","r")
lines=f.readlines()
f.close()

d = {}
for line in lines:
    wordList=jieba.lcut(line) #用结巴分词，对每行内容进行分词
    for word in wordList:
        if len(word)<3:
            continue
        else:
            d[word]=d.get(word,0)+1
ls=list(d.items())
ls.sort(key=lambda x:x[1],reverse=True)#按照词频由高到低排序
            
f=open('out2.txt','w')
for i in range(len(ls)):
    f.write('{}:{}\n'.format(ls[i][0],ls[i][1]))
f.close()

总结

一个权当无聊时动动脑子的题目罢了

posted @ 2021-12-03 08:30 薛定谔的恐龙阅读(116) 评论(0) 收藏举报

刷新页面返回顶部

薛定谔的恐龙

越努力越幸运

Python小题目6：jieba库与get函数字符频次统计的结合使用

目录

前言

一、思路

二、使用步骤

1.引入库，读取文件进行分词（要求分词不重复）

2.统计词语频次

总结

公告