2018年5月25日

hadoop综合大作业

摘要: 一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 1.启动hadoop 2.Hdfs上创建文件夹并查看 3.上传英文词频统计文本至hdfs 一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 1.启动hadoop 2.Hd 阅读全文

posted @ 2018-05-25 11:34 阿丹丹酱 阅读(98) 评论(0) 推荐(0) 编辑

2018年5月16日

Hive基本操作与应用

摘要: 通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 1 2 load data inpath '/user/hadoop/tese1/try.txt' overwrite int 阅读全文

posted @ 2018-05-16 20:17 阿丹丹酱 阅读(96) 评论(0) 推荐(0) 编辑

2018年5月9日

MapReduce处理气象数据

摘要: cd /usr/hadoop sodu mkdir qx cd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/1* cd /usr/hadoop/qx/data/ftp.ncdc.noaa.gov/pub/data/noaa/2017 s... 阅读全文

posted @ 2018-05-09 21:13 阿丹丹酱 阅读(105) 评论(0) 推荐(0) 编辑

2018年5月8日

熟悉常用的HBase操作

摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-08 15:57 阿丹丹酱 阅读(122) 评论(0) 推荐(0) 编辑

2018年4月27日

爬虫大作业

摘要: 制作过程中遇到三个问题,一个是文件用w+打开后写完数据进去读取不出来,后来在读前再打开一次文件解决了 二是将列表排序后想取出里面的str,解决方式:问刘东 三是安装wordcloud不成功,改用在线词云生成器== 阅读全文

posted @ 2018-04-27 20:06 阿丹丹酱 阅读(175) 评论(0) 推荐(0) 编辑

2018年4月25日

熟悉常用的hdfs操作

摘要: 编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件; if $(hdfs dfs -test -e text.txt); then $(hdfs dfs -ap 阅读全文

posted @ 2018-04-25 20:50 阿丹丹酱 阅读(403) 评论(0) 推荐(0) 编辑

2018年4月12日

数据化结构与保存

摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newsId = re.findall('\_(.*).html', newsUrl)[0].split('/'... 阅读全文

posted @ 2018-04-12 20:29 阿丹丹酱 阅读(130) 评论(0) 推荐(0) 编辑

2018年4月11日

获取全部校园网信息

摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 爬取南科大校园网的新闻 运行代码结果 ————————————————————纯洁的分割线———————————————————— 新闻网址: www.sustc.edu. 阅读全文

posted @ 2018-04-11 15:16 阿丹丹酱 阅读(513) 评论(0) 推荐(0) 编辑

2018年4月3日

爬取校园新闻

摘要: def getNewsId(url): newsId = re.findall(r'\_(.*).html', newsUrl)[0][-4:] clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(newsId) clickRes = requests.get(clickUrl)... 阅读全文

posted @ 2018-04-03 14:36 阿丹丹酱 阅读(127) 评论(0) 推荐(0) 编辑

2018年3月28日

网络爬虫基本练习

摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.练习: 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出第2个li标签的a标签的第 阅读全文

posted @ 2018-03-28 22:36 阿丹丹酱 阅读(130) 评论(0) 推荐(0) 编辑

导航