03 2019 档案

【大数据】理解爬虫原理
摘要:1. 简单说明爬虫原理 通过代码从网页抓取所需的信息。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 从浏览器输入地址请求网页,服务器响应,传输网页,浏览器渲染并显示。 2).使用 requests 库抓取网站数据; 以下代码在课堂上用jupyter实现过了 requests.get(ur 阅读全文

posted @ 2019-03-27 21:57 WAN*Y 阅读(262) 评论(0) 推荐(0)

【大数据】中文词频统计
摘要:中文词频统计 1. 下载一长篇中文小说。 汤姆索亚历险记 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word 阅读全文

posted @ 2019-03-18 21:54 WAN*Y 阅读(1368) 评论(0) 推荐(0)

【大数据】复合数据类型,英文词频统计
摘要:1.列表,元组,字典,集合分别如何增删改查及遍历。 (1)列表 (2)元组 tr=['30','50'] tr2=['20','30'] del tr #删除整个元组 tr3=tr+tr2 #把两个元组组合在一起,结果为tr3=['30','50','20','30'] printf(tr[0]) 阅读全文

posted @ 2019-03-14 21:58 WAN*Y 阅读(249) 评论(0) 推荐(0)

【大数据】字符串、文件操作,英文词频统计预处理
摘要:1.字符串操作: 解析身份证号:生日、性别、出生地等。 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 凯撒密码编码与解码 网址观察与批量生成 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说,保存为utf8文件。 从文件读出字符串。 将所有大写转换为小写 将所有 阅读全文

posted @ 2019-03-06 21:21 WAN*Y 阅读(254) 评论(0) 推荐(0)

导航