摘要: 1.将爬虫大作业产生的csv文件上传到HDFS,选取的文件是hhh.csv,大约30000条数据 创建文件夹,导入hhh.csv文件并查看。并启动hadoop 将hhh.csv文件导入hdfs中 导入数据库hive中,创建数据库dbpy,创建表hhh_py,并查看前五行数据。 用select选取城市 阅读全文
posted @ 2019-06-16 21:22 Heyuanz 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 三、歌词情感分析 四、结语 生活之中处处皆学问,每一种代码学习都会让你的生活丰富多彩,沉浸于杰伦的唯美歌声中,用带有感情的代码分析杰伦的感情世界,觉得世界万物都在随 阅读全文
posted @ 2019-04-28 21:44 Heyuanz 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 1. 简单说明爬虫原理 什么是爬虫 爬虫:请求网站并提取数据的自动化程序 百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. 理解爬虫 阅读全文
posted @ 2019-03-27 21:55 Heyuanz 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' 阅读全文
posted @ 2019-03-18 20:17 Heyuanz 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 列表 元组: tr=['30','50'] tr2=['20','30'] del tr #删除整个元组 tr3=tr+tr2 #把两个元组组合在一起,结果为tr3=['30','50','20','30'] printf(tr[0]) #查找元组中的第一个元素 for i in range(len 阅读全文
posted @ 2019-03-14 21:46 Heyuanz 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 word=input("请输入一段字母:");n=input("请输入偏移值:");s=ord("a");e=ord("z");choose=input("编码请按1,解码请按2:");print("凯撒密码编码:",end 阅读全文
posted @ 2019-03-06 16:05 Heyuanz 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 浏览2019春节各种大数据分析报告 春节人口迁徙大数据报告! 分析所采用数据的来源有哪些? 交通运输部公布的数据、腾讯地图、腾讯位置服务、2017年主要城市流动人口排行、2017年主要城市人口排行、《中国流动人口发展报告2018》、三大城市群省际流动人口主要来源地图、春节北京、上海、广州人口迁出流量 阅读全文
posted @ 2019-02-26 20:43 Heyuanz 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 作业要求来自https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2097 GitHub远程仓库的地址:https://github.com/NANhjw/hjwgit 1.下载git,安装配置用户名和邮箱。 (1)下载安装Github配置 阅读全文
posted @ 2018-09-17 21:59 Heyuanz 阅读(313) 评论(2) 推荐(0) 编辑
摘要: 前言: 从小到大,我对各方面的领域都非常有兴趣。在小学时代,我的表哥送了我一台nds掌上游戏机,从而开启了我的游戏人生。 初中是,电脑并未普及,家里只有一台非常破旧的一体式主机。当时能够做到的事情也是非常有限,大部分时间都是在网页上面度过。 到了高中,买了台新电脑,很多同学都经常在聊游戏,而好奇心重 阅读全文
posted @ 2018-09-09 13:59 Heyuanz 阅读(236) 评论(1) 推荐(0) 编辑