会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
刘睿智
博客园
首页
新随笔
联系
订阅
管理
2019年6月20日
Hadoop综合大作业
摘要: Hadoop综合大作业 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 Hadoop综合大作业 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 3.把hdfs中的文本文件最终导入到数据仓库Hive中 4.删除
阅读全文
posted @ 2019-06-20 17:57 刘睿智
阅读(197)
评论(0)
推荐(0)
2019年6月4日
分布式文件系统HDFS 练习
摘要: 利用Shell命令与HDFS进行交互 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 2.文件操作 使用vim编辑器,在本地Linux文件系统的“/h
阅读全文
posted @ 2019-06-04 19:19 刘睿智
阅读(146)
评论(0)
推荐(0)
2019年5月16日
安装Hadoop
摘要: 1.安装Linux,MySql 2.windows 与 虚拟机互传文件 3.安装Hadoop 还不能从windows复制文件的,可在虚拟机里用浏览器下载安装文件,课件: 提取文件:hadoop-2.7.1.tar.gz 链接: https://pan.baidu.com/s/1HIVd9JCZstW
阅读全文
posted @ 2019-05-16 21:50 刘睿智
阅读(139)
评论(0)
推荐(0)
2019年5月9日
爬虫综合作业
摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 .爬虫综合大作业 春节电影档《流浪地球》成为了一匹黑马,其总票房位列中国影史票房成绩第二名,仅次于《战狼Ⅱ》的56.85亿。更被人们誉为中国科幻片崛起的代表作。因此
阅读全文
posted @ 2019-05-09 21:03 刘睿智
阅读(350)
评论(0)
推荐(0)
2019年4月15日
爬取全部的校园新闻
摘要: 老师:MissDu 提交作业 老师:MissDu 提交作业 0.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) requests.get(clickUrl) re.search()/.split() s
阅读全文
posted @ 2019-04-15 11:46 刘睿智
阅读(178)
评论(0)
推荐(0)
2019年4月1日
理解爬虫原理
摘要: 恢复内容开始 一.简单说明爬虫原理 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛, 沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序; 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代
阅读全文
posted @ 2019-04-01 20:10 刘睿智
阅读(232)
评论(0)
推荐(0)
2019年3月25日
中文词频统计与词云生成
摘要: 老师:MissDu 提交作业 老师:MissDu 提交作业 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut(text) 4. 更新词库,加入所分析
阅读全文
posted @ 2019-03-25 21:58 刘睿智
阅读(457)
评论(0)
推荐(0)
复合数据类型,英文词频统计
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 列表增删改查: 元组: 增加,修改:元组中的元素值是不允许修改的,但我们可以对元组进行连接组合 '删除:元组不可以删除元素但是可以删除整个元组' 字典的增删改查: 集合
阅读全文
posted @ 2019-03-25 01:17 刘睿智
阅读(160)
评论(0)
推荐(0)
2019年3月11日
字符串操作,文件操作,英文词频统计预处理
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作 解析身份证号:生日、性别、出生地等。 print("身份证解析") code=input("身份证号:") sf=code[0:2] city=code
阅读全文
posted @ 2019-03-11 01:26 刘睿智
阅读(199)
评论(0)
推荐(0)
2019年3月4日
了解大数据的特点、来源与数据呈现方式
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.浏览2019春节各种大数据分析报告,例如: 这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313
阅读全文
posted @ 2019-03-04 14:18 刘睿智
阅读(211)
评论(0)
推荐(0)
下一页
公告