2018年3月28日

网络爬虫基本练习

摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.练习: 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出第2个li标签的a标签的第 阅读全文

posted @ 2018-03-28 22:36 阿丹丹酱 阅读(131) 评论(0) 推荐(0) 编辑

统计中文文章词频

摘要: f=open("C:/Users/ZD/PycharmProjects/test/test.txt",'r',encoding='utf8') str=f.read() f.close() import jieba wordList=jieba.cut(str) wordList=list(jieba.cut(str)) wordDic={} for i in set(wordList): ... 阅读全文

posted @ 2018-03-28 15:20 阿丹丹酱 阅读(210) 评论(0) 推荐(0) 编辑

导航