摘要: 作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 本案例主要分析在豆瓣爬取的《三体》短评数据,数据字段包括地址、评论时间、评论内容、评价程度、用户名和投票数6个属性值,将数据上传到hdfs的hive数据仓库中进行简 阅读全文
posted @ 2019-06-18 16:06 吴桐1123 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 (1)在HDFS中为hadoop用户创建一个用户目录 (2)在用户目录下创建一个input 阅读全文
posted @ 2019-06-18 16:02 吴桐1123 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 1.安装Linux,MySql 安装mysql成功 mysql启动成功 2.windows 与 虚拟机互传文件 设置共享文件夹: 2.windows 与 虚拟机互传文件 阅读全文
posted @ 2019-06-18 16:00 吴桐1123 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 一、爬虫对象 豆瓣电影里面喜剧片的排行榜: 二、代码如下: 设置了多个user-agent,模拟成真实的浏览器去提取内容: 抓取电影的信息: 三、把爬的电影数据保存起来 阅读全文
posted @ 2019-06-18 15:55 吴桐1123 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 1.从新闻url获取新闻详情: 字典,anews 2.从列表页的url获取新闻url:列表append(字典) alist 3.生成所页列表页的url并获取 阅读全文
posted @ 2019-06-18 15:53 吴桐1123 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理 什么是爬虫? 爬虫:请求网站并提取数据的自动化程序 百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者), 阅读全文
posted @ 2019-06-18 15:49 吴桐1123 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 1.下载一长篇中文小说。 本次作业的小说来源于水浒传五十回至五十五回。 2.从文件读取待分析文本。 3.安装并使用jieba进行中文分词。 更新词库,加入所 阅读全文
posted @ 2019-06-18 15:46 吴桐1123 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 这个作业主要来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 1.列表,元组,字典,集合分别如何增删改查及遍历。 列表增加元素: append()方法:在列表的末尾增加一个元素 insert()方法:在列表指定的位置上增 阅读全文
posted @ 2019-06-18 15:43 吴桐1123 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 本次作业的来源https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说。 将所有大写 阅读全文
posted @ 2019-06-18 15:37 吴桐1123 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 1、作业要求 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.浏览2019春节各种大数据分析报告,例如: 这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025 阅读全文
posted @ 2019-06-18 15:30 吴桐1123 阅读(118) 评论(0) 推荐(0) 编辑