2019年6月16日

Hadoop综合大作业

摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 1.准备本次数据分析的数据(以下为爬虫大作业获取的CSV文件) 2.创建一个来运行案例的bigdatabase、dataset的文件夹 3.(1)将CSV文 阅读全文

posted @ 2019-06-16 00:55 李先灿 阅读(581) 评论(0) 推荐(0) 编辑

2019年6月4日

分布式并行计算MapReduce

摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 (1)MapReduce的功能: 核心功能是将用户编写的业务逻 阅读全文

posted @ 2019-06-04 22:58 李先灿 阅读(816) 评论(0) 推荐(0) 编辑

2019年5月30日

分布式文件系统HDFS 练习

摘要: 本次作业来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 (1)在HDFS中为hadoop用户创建一个用户目录 阅读全文

posted @ 2019-05-30 17:09 李先灿 阅读(146) 评论(0) 推荐(0) 编辑

2019年5月8日

安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 1. 简述Hadoop平台的起源、发展历史与应用现状。(列举发展过程中重要的事件、主要版本、主要厂商,国内外Hadoop应用的典型案例) (1)起源: 20 阅读全文

posted @ 2019-05-08 11:56 李先灿 阅读(197) 评论(0) 推荐(0) 编辑

2019年4月28日

爬虫综合大作业

摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 作业要求: 一.把爬取的内容保存取MySQL数据库 import pandas as pd import pymysql from sqlalchemy i 阅读全文

posted @ 2019-04-28 21:49 李先灿 阅读(356) 评论(0) 推荐(0) 编辑

2019年4月12日

爬取全部的校园新闻

摘要: 本次的作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941 爬取网页的URL是:http://news.gzcc.cn/html/2005/xiaoyuanxinwen_0710/2.html 源代码如下: .从新闻u 阅读全文

posted @ 2019-04-12 17:48 李先灿 阅读(92) 评论(0) 推荐(0) 编辑

2019年4月2日

获取一篇新闻的全部信息

摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl,获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型。 newsUrl newsId( 阅读全文

posted @ 2019-04-02 16:36 李先灿 阅读(109) 评论(0) 推荐(0) 编辑

2019年3月27日

理解爬虫原理

摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 1. 简单说明爬虫原理 网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。也就是 阅读全文

posted @ 2019-03-27 11:36 李先灿 阅读(130) 评论(0) 推荐(0) 编辑

2019年3月18日

中文词频统计

摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773。 1.下载一长篇中文小说。 本次作业的小说来源于水浒传五十回至五十五回。 2.从文件读取待分析文本。 3.安装并使用jieba进行中文分词。 更新词库,加入 阅读全文

posted @ 2019-03-18 16:51 李先灿 阅读(174) 评论(0) 推荐(0) 编辑

2019年3月14日

复合数据类型,英文词频统计

摘要: 此次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696。 1.列表,元组,字典,集合分别如何增删改查及遍历。 (1)列表 (2)元组 (3)字典 (4)集合 2.总结列表,元组,字典,集合的联系与区别(参考以下几 阅读全文

posted @ 2019-03-14 18:15 李先灿 阅读(112) 评论(0) 推荐(0) 编辑

导航