2019年6月19日

摘要: Hadoop综合大作业 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件 喜剧电影: 剧情电影 3.把hdfs中的文本文件最终导入到数据仓库Hive中 创建数据库: 创建comedy表: 创建plot表: 4.在Hive中查看并分析数据 查看喜剧电 阅读全文
posted @ 2019-06-19 20:02 Chen## 阅读(171) 评论(0) 推荐(0)
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319。 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS 功能:分布式文件系统,用来存储海量数据。 工作原理 阅读全文
posted @ 2019-06-19 20:00 Chen## 阅读(117) 评论(0) 推荐(0)
摘要: 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input 阅读全文
posted @ 2019-06-19 19:57 Chen## 阅读(168) 评论(0) 推荐(0)
摘要: 1. 简述Hadoop平台的起源、发展历史与应用现状。 列举发展过程中重要的事件、主要版本、主要厂商; 国内外Hadoop应用的典型案例。 (1)Hadoop起源 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的 阅读全文
posted @ 2019-06-19 19:55 Chen## 阅读(97) 评论(0) 推荐(0)
摘要: 一、爬虫对象 豆瓣电影里面喜剧片的排行榜: 二、代码如下: 设置了多个user-agent,模拟成真实的浏览器去提取内容: 抓取电影的信息: 三、把爬的电影数据保存起来 部分截图(一共抓取了600部电影): 四、数据分析 通过此柱形图可以发现美国地区居于首位,毕竟美国发展得比较快,电影事业崛起。 通 阅读全文
posted @ 2019-06-19 19:52 Chen## 阅读(101) 评论(0) 推荐(0)
摘要: 1. 简单说明爬虫原理 上网所看到页面上的内容获取下来,并进行存储。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 浏览器发送请求,服务器接收到,给出响应。 2).使用 requests 库抓取网站数据; 3).了解网页 4).使用 Beautiful Soup 解析网页; 通过Beaut 阅读全文
posted @ 2019-06-19 19:38 Chen## 阅读(92) 评论(0) 推荐(0)
摘要: 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文
posted @ 2019-06-19 19:38 Chen## 阅读(68) 评论(0) 推荐(0)
摘要: 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' 阅读全文
posted @ 2019-06-19 19:35 Chen## 阅读(426) 评论(0) 推荐(0)
摘要: 1.列表,元组,字典,集合分别如何增删改查及遍历。 列表: 对列表的数据项进行修改或更新,你也可以使用append()方法来添加列表项;可以使用 del 语句来删除列表的的元素; 元组: 元组可以使用下标索引来访问元组中的值;元组中的元素值是不允许修改的,但我们可以对元组进行连接组合;元组中的元素值 阅读全文
posted @ 2019-06-19 19:34 Chen## 阅读(114) 评论(0) 推荐(0)

导航