2019 年 3月随笔档案 - xbk6

理解爬虫原理

摘要：1、简单说明爬虫原理请求网站并提取数据的自动化程序 2. 理解爬虫开发过程 1).简要说明浏览器工作原理；浏览器的主要功能就是向服务器发出请求，在浏览器窗口中展示您想要访问的网络资源。 2).使用 requests 库抓取网站数据 3).了解网页写一个简单的html文件，包含多个标签，类，id 阅读全文

posted @ 2019-03-25 16:39 xbk6 阅读(171) 评论(0) 推荐(0)

中文词频统计

摘要：红楼梦高频词：红楼梦整篇小说：成功排序出高频词：生成词云如下：阅读全文

posted @ 2019-03-18 16:18 xbk6 阅读(443) 评论(0) 推荐(0)

复合数据类型

摘要：列表，元组，字典，集合分别如何增删改查及遍历。列表是有序的，我们可以用之前学过的for循环遍历它，然后输出列表中的每一个值。元组属于特殊的列表 S=(,,,)，其内部元素不可以编辑，只可以S[0]方式查询。字典是python中唯一的映射类型，采用键值对的形式存储数据。总结列表，元组，字典，集合的阅读全文

posted @ 2019-03-12 09:01 xbk6 阅读(232) 评论(0) 推荐(0)

字符串操作，英文词频统计预处理

摘要：凯撒密码编码与解码: 网址观察与批量生成: 2.英文词频统计预处理下载一首英文的歌词或文章或小说，保存为utf8文件。从文件读出字符串。将所有大写转换为小写将所有其他做分隔符（,.？！）替换为空格分隔出一个一个的单词并统计单词出现的次数。 text="Mr. Johnson had ne 阅读全文

posted @ 2019-03-04 16:42 xbk6 阅读(167) 评论(0) 推荐(0)

03 2019 档案

公告