会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
梁林森
博客园
首页
新随笔
联系
订阅
管理
2019年6月20日
大数据应用期末总评
摘要: 作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 大数据分析: 1.将爬虫大作业产生的csv文件上传到HDFS Python爬取到的数据: (1)首先创建一个用于运行本案例的目录bigdatacase (2)在本地
阅读全文
posted @ 2019-06-20 21:48 梁林森
阅读(152)
评论(0)
推荐(0)
2019年6月3日
分布式文件系统HDFS练习
摘要: 本次作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 执行start-dfs.sh命令开启进程 1.目录操作 1)在HDF
阅读全文
posted @ 2019-06-03 12:26 梁林森
阅读(269)
评论(0)
推荐(0)
2019年5月16日
安装Hadoop
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 1.安装Linux (1)虚拟机命名,选择操作系统,版本 (2)选择内存大小 (3)启动Ubuntu (4)添加镜像文件 (5)开始安装Ubuntu (6)新
阅读全文
posted @ 2019-05-16 21:35 梁林森
阅读(153)
评论(0)
推荐(0)
2019年5月9日
爬虫综合大作业
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业 于2009年6月26日创建,被粉丝们亲切的称为“B站”的哔哩哔哩(bilibili),现在可以说是无人不晓。但你们是否知道哔哩哔哩这名称的来历
阅读全文
posted @ 2019-05-09 21:56 梁林森
阅读(353)
评论(0)
推荐(0)
2019年4月14日
爬取全部的校园新闻
摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) reque
阅读全文
posted @ 2019-04-14 23:57 梁林森
阅读(193)
评论(0)
推荐(0)
2019年4月1日
理解爬虫原理
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理 程序通过模拟浏览器请求站点,把站点返回的HTML代码、JSON数据、图片视频数据爬到本地,进而提取需要的数据。 2. 理解爬虫开发过程
阅读全文
posted @ 2019-04-01 14:28 梁林森
阅读(225)
评论(0)
推荐(0)
2019年3月25日
中文词频统计与词云生成
摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 一、中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba i
阅读全文
posted @ 2019-03-25 12:09 梁林森
阅读(458)
评论(0)
推荐(0)
2019年3月24日
复合数据类型,英文词频统计
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 一、列表,元组,字典,集合分别如何增删改查及遍历 1、列表 •增 •删 •改 •查 2、元组 元组与列表类似,不同之处在于元组的元素不能修改; 元组中只包含一
阅读全文
posted @ 2019-03-24 17:18 梁林森
阅读(222)
评论(0)
推荐(0)
2019年3月11日
字符串操作、文件操作,英文词频统计预处理
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.英文词频统计预处理
阅读全文
posted @ 2019-03-11 21:53 梁林森
阅读(108)
评论(0)
推荐(0)
2019年3月4日
了解大数据的特点、来源与数据呈现方式
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.这些分析所采用数据的来源是什么? (1)交易数据。各大交易平台点击、浏览、交易订单数据; (2)互联网上的“开放数据”来源。政府机构,非营利组织和企业免费
阅读全文
posted @ 2019-03-04 12:48 梁林森
阅读(263)
评论(0)
推荐(0)
下一页
公告