Chen##

Hadoop综合大作业

摘要： Hadoop综合大作业要求： 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件喜剧电影：剧情电影 3.把hdfs中的文本文件最终导入到数据仓库Hive中创建数据库：创建comedy表：创建plot表： 4.在Hive中查看并分析数据查看喜剧电阅读全文

posted @ 2019-06-19 20:02 Chen## 阅读(172) 评论(0) 推荐(0)

分布式并行计算MapReduce

摘要：这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319。 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS 功能：分布式文件系统，用来存储海量数据。工作原理阅读全文

posted @ 2019-06-19 20:00 Chen## 阅读(118) 评论(0) 推荐(0)

分布式文件系统HDFS 练习

摘要：利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作在HDFS中为hadoop用户创建一个用户目录（hadoop用户）在用户目录下创建一个input目录在HDFS的根目录下创建一个名称为input的目录删除HDFS根目录中的“input 阅读全文

posted @ 2019-06-19 19:57 Chen## 阅读(168) 评论(0) 推荐(0)

安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要： 1. 简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商；国内外Hadoop应用的典型案例。（1）Hadoop起源 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的阅读全文

posted @ 2019-06-19 19:55 Chen## 阅读(99) 评论(0) 推荐(0)

爬虫综合大作业

摘要：一、爬虫对象豆瓣电影里面喜剧片的排行榜：二、代码如下：设置了多个user-agent，模拟成真实的浏览器去提取内容：抓取电影的信息：三、把爬的电影数据保存起来部分截图（一共抓取了600部电影）：四、数据分析通过此柱形图可以发现美国地区居于首位，毕竟美国发展得比较快，电影事业崛起。通阅读全文

posted @ 2019-06-19 19:52 Chen## 阅读(103) 评论(0) 推荐(0)

理解爬虫原理

摘要： 1. 简单说明爬虫原理上网所看到页面上的内容获取下来，并进行存储。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理；浏览器发送请求，服务器接收到，给出响应。 2).使用 requests 库抓取网站数据； 3).了解网页 4).使用 Beautiful Soup 解析网页；通过Beaut 阅读全文

posted @ 2019-06-19 19:38 Chen## 阅读(94) 评论(0) 推荐(0)

获取一篇新闻的全部信息

摘要：给定一篇新闻的链接newsUrl，获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击： newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文

posted @ 2019-06-19 19:38 Chen## 阅读(70) 评论(0) 推荐(0)

中文词频统计

摘要：中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' 阅读全文

posted @ 2019-06-19 19:35 Chen## 阅读(430) 评论(0) 推荐(0)

复合数据类型，英文词频统计

摘要： 1.列表，元组，字典，集合分别如何增删改查及遍历。列表：对列表的数据项进行修改或更新，你也可以使用append()方法来添加列表项；可以使用 del 语句来删除列表的的元素；元组：元组可以使用下标索引来访问元组中的值；元组中的元素值是不允许修改的，但我们可以对元组进行连接组合；元组中的元素值阅读全文

posted @ 2019-06-19 19:34 Chen## 阅读(116) 评论(0) 推荐(0)

导航

公告