2019 年 3月随笔档案 - WAN*Y

【大数据】理解爬虫原理

摘要：1. 简单说明爬虫原理通过代码从网页抓取所需的信息。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理；从浏览器输入地址请求网页，服务器响应，传输网页，浏览器渲染并显示。 2).使用 requests 库抓取网站数据；以下代码在课堂上用jupyter实现过了 requests.get(ur 阅读全文

posted @ 2019-03-27 21:57 WAN*Y 阅读(262) 评论(0) 推荐(0)

【大数据】中文词频统计

摘要：中文词频统计 1. 下载一长篇中文小说。汤姆索亚历险记 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word 阅读全文

posted @ 2019-03-18 21:54 WAN*Y 阅读(1368) 评论(0) 推荐(0)

【大数据】复合数据类型，英文词频统计

摘要：1.列表，元组，字典，集合分别如何增删改查及遍历。（1）列表（2）元组 tr=['30','50'] tr2=['20','30'] del tr #删除整个元组 tr3=tr+tr2 #把两个元组组合在一起，结果为tr3=['30','50','20','30'] printf(tr[0]) 阅读全文

posted @ 2019-03-14 21:58 WAN*Y 阅读(249) 评论(0) 推荐(0)

【大数据】字符串、文件操作，英文词频统计预处理

摘要：1.字符串操作：解析身份证号：生日、性别、出生地等。解析身份证号：生日、性别、出生地等。凯撒密码编码与解码凯撒密码编码与解码网址观察与批量生成网址观察与批量生成 2.英文词频统计预处理下载一首英文的歌词或文章或小说，保存为utf8文件。从文件读出字符串。将所有大写转换为小写将所有阅读全文

posted @ 2019-03-06 21:21 WAN*Y 阅读(254) 评论(0) 推荐(0)

03 2019 档案

【大数据】理解爬虫原理

【大数据】中文词频统计

【大数据】复合数据类型，英文词频统计

【大数据】字符串、文件操作，英文词频统计预处理

导航

公告