代码改变世界

Hadoop综合大作业&补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作

2018-05-25 19:42 by Molemole, 360 阅读, 0 推荐, 收藏, 编辑
摘要:1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文本文件load进去。 (4)进入hive,并查看所有的表 (5)创建表word,,写hiveQL命令 阅读全文

Hive基本操作与应用

2018-05-16 21:34 by Molemole, 197 阅读, 0 推荐, 收藏, 编辑
摘要:通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 1 2 load data inpath '/user/hadoop/tese1/try.txt' overwrite int 阅读全文

熟悉常用的HBase操作,编写MapReduce作业

2018-05-08 15:42 by Molemole, 183 阅读, 0 推荐, 收藏, 编辑
摘要:1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Wangwu male 23 2015003 Ma 阅读全文

爬虫大作业

2018-04-30 13:27 by Molemole, 203 阅读, 0 推荐, 收藏, 编辑
摘要:将高频词汇放入test.txt以后打开 http://www.picdata.cn/ 用网上词云生成图片 阅读全文

熟悉常用的HDFS操作

2018-04-25 17:36 by Molemole, 290 阅读, 0 推荐, 收藏, 编辑
摘要:编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件; 从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名; 将HDFS中指定 阅读全文

数据结构化与保存

2018-04-12 20:56 by Molemole, 147 阅读, 0 推荐, 收藏, 编辑
摘要:import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport reimport pandas #获取点击次数def getClickCount(newsUrl): newId=re.search('\_ 阅读全文

爬取校园新闻

2018-04-03 16:17 by Molemole, 244 阅读, 0 推荐, 收藏, 编辑
摘要:str = requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/') str.encoding = 'utf-8' from bs4 import BeautifulSoup soup=BeautifulSoup(str.text,'html. 阅读全文

中文词频统计

2018-03-28 22:04 by Molemole, 113 阅读, 0 推荐, 收藏, 编辑
摘要:下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 阅读全文

英文词频统计

2018-03-25 17:04 by Molemole, 254 阅读, 0 推荐, 收藏, 编辑
摘要:str='''You were the shadow to my light Did you feel us Another start You fade away Afraid our aim is out of sight Wanna see us Alive Where are you now 阅读全文

字符串练习

2018-03-20 22:22 by Molemole, 180 阅读, 0 推荐, 收藏, 编辑
摘要:字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 https://docs.python.org/3/library/turtle.html 产生python文档的网址 http://news.g 阅读全文