摘要: 一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 1.启动hadoop 2.Hdfs上创建文件夹并查看 3.上传英文词频统计文本至hdfs 4.启动Hive 5.导入文件内容到表docs并查看 6.进行词频统计,结果放在表t_word_count里 7.查看统 阅读全文
posted @ 2018-05-25 09:06 100江楚锋 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 1. 用Python编写WordCount程序并提交任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 2. 用mapreduce 处理气象数据集 编写程序求每日最高最低气温 阅读全文
posted @ 2018-05-10 21:21 100江楚锋 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1. 将新闻的正文内容保存到文本文件。 1 2 3 4 def writeNewsDetail(content): f = open('gzccNews.txt', 'a',encoding='utf-8') f.write(content) f.close() 1 2 3 4 def writeN 阅读全文
posted @ 2018-04-17 21:43 100江楚锋 阅读(152) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime url="http://news.gzcc.cn/html/xiaoyuanxinwen/" res=requests.get(url) res.e 阅读全文
posted @ 2018-04-17 21:41 100江楚锋 阅读(94) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime url="http://news.gzcc.cn/html/xiaoyuanxinwen/" res=requests.get(url) res.e 阅读全文
posted @ 2018-04-02 22:24 100江楚锋 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对象 res.en 阅读全文
posted @ 2018-03-29 19:04 100江楚锋 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 阅读全文
posted @ 2018-03-26 21:16 100江楚锋 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1.字符串 列表:有序,可做增删改查操作,用方括号[x,y,z]的方式表示 元组:有序,不可做修改操作,用小括号(x,y,z)的方式表示 字典:无序,可做增删改查操作,其中组成元素为键值对,用花括号{a:b,c:d}的方式表示 集合:无序,可由列表创建,其中元素不重复,用花括号{x,y,z}的方式表 阅读全文
posted @ 2018-03-22 17:26 100江楚锋 阅读(113) 评论(0) 推荐(0) 编辑
摘要: import turtleturtle.bgcolor("red")turtle.fillcolor("yellow")turtle.color('yellow')turtle.speed(10)#主星turtle.begin_fill()turtle.up()turtle.goto(-600,220)turtle.down()for i in range (5): turtle.forwa... 阅读全文
posted @ 2018-03-19 19:10 100江楚锋 阅读(169) 评论(0) 推荐(0) 编辑
摘要: cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 cd/ ls usr mkdir命令:新建新目录 (5)进入/tmp目录,创 阅读全文
posted @ 2018-03-12 20:33 100江楚锋 阅读(93) 评论(0) 推荐(0) 编辑