会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
天安永龙
博客园
首页
新随笔
联系
管理
订阅
2019年6月16日
Hadoop综合大作业
摘要: 本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 前言:本次作业爬取猫眼电影 一出好戏的评论,整合成csv文件 作业要求 1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDF
阅读全文
posted @ 2019-06-16 19:08 天安永龙
阅读(559)
评论(0)
推荐(0)
2019年5月31日
分布式文件系统HDFS练习
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 1.目录操作: (1)、在HDFS中为hadoop用户创建一个用户目录(hadoop用户): (2)、在HDFS的根目录下创建一个名称为input的目录 (3)、删除H
阅读全文
posted @ 2019-05-31 21:47 天安永龙
阅读(242)
评论(0)
推荐(0)
2019年5月12日
安装关系型数据库MySQL 安装大数据处理框架Hadoop
摘要: 一.简述Hadoop平台的起源、发展历史与应用现状。 Hadoop的起源2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gu
阅读全文
posted @ 2019-05-12 21:19 天安永龙
阅读(173)
评论(0)
推荐(0)
2019年4月28日
爬虫综合大作业
摘要: 要说当今中国小成本制作电影中的佼佼者,不得不提的就是我不是药神,通过爬虫爬取豆瓣数据,分析电影 通过查阅相关资料发现 豆瓣从2017.10月开始全面禁止爬取数据,仅仅开放500条数据,白天1分钟最多可以爬取40次,晚上一分钟可爬取60次数,超过此次数则会封禁IP地址。 所以需要控制数据爬取数量 登陆
阅读全文
posted @ 2019-04-28 21:07 天安永龙
阅读(592)
评论(0)
推荐(0)
2019年4月8日
爬取全部的校园新闻
摘要: 1.从新闻url获取新闻详情: 字典,anews 结果如下 2.从列表页的url获取新闻url:列表append(字典) alist 结果如图 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 .4.设置合理的爬取间隔 5.
阅读全文
posted @ 2019-04-08 17:57 天安永龙
阅读(127)
评论(0)
推荐(0)
2019年4月1日
作业六|获取一篇新闻的全部信息
摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId
阅读全文
posted @ 2019-04-01 16:39 天安永龙
阅读(188)
评论(0)
推荐(0)
2019年3月25日
理解爬虫原理
摘要: 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 1. 简单说明爬虫原理 1、发起请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头、请求体等 Request模块缺陷:不能执行
阅读全文
posted @ 2019-03-25 17:45 天安永龙
阅读(135)
评论(0)
推荐(0)
2019年3月18日
作业——04 中文词频统计
摘要: 作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba impor
阅读全文
posted @ 2019-03-18 17:21 天安永龙
阅读(177)
评论(0)
推荐(0)
2019年3月14日
复合数据类型,英文词频统计
摘要: 作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表,元组,字典,集合分别如何增删改查及遍历。 (1)列表 执行效果图如下图所示 (2)元组 执行效果如下图所示: (3)字典 执行效果如下图所示: (4)集
阅读全文
posted @ 2019-03-14 21:01 天安永龙
阅读(154)
评论(0)
推荐(0)
2019年3月6日
字符串、文件操作,英文词频统计预处理
摘要: 该作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646 1.字符串操作:解析身份证号:生日、性别、出生地 结果如图: 2.凯撒密码编码与解码 #凯撒密码编码与解码word=input("请输入一段字母:");n=in
阅读全文
posted @ 2019-03-06 15:29 天安永龙
阅读(179)
评论(0)
推荐(0)
下一页
公告