阿丹丹酱

hadoop综合大作业

摘要：一、用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）词频统计。 1.启动hadoop 2.Hdfs上创建文件夹并查看 3.上传英文词频统计文本至hdfs 一、用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）词频统计。 1.启动hadoop 2.Hd 阅读全文

posted @ 2018-05-25 11:34 阿丹丹酱阅读(104) 评论(0) 推荐(0) 编辑

Hive基本操作与应用

摘要：通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹上传文件至hdfs 启动Hive 创建原始文档表导入文件内容到表docs并查看 1 2 load data inpath '/user/hadoop/tese1/try.txt' overwrite int 阅读全文

posted @ 2018-05-16 20:17 阿丹丹酱阅读(119) 评论(0) 推荐(0) 编辑

摘要： cd /usr/hadoop sodu mkdir qx cd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/1* cd /usr/hadoop/qx/data/ftp.ncdc.noaa.gov/pub/data/noaa/2017 s... 阅读全文

posted @ 2018-05-09 21:13 阿丹丹酱阅读(111) 评论(0) 推荐(0) 编辑

熟悉常用的HBase操作

摘要： 1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-08 15:57 阿丹丹酱阅读(130) 评论(0) 推荐(0) 编辑

爬虫大作业

摘要：制作过程中遇到三个问题，一个是文件用w+打开后写完数据进去读取不出来，后来在读前再打开一次文件解决了二是将列表排序后想取出里面的str，解决方式：问刘东三是安装wordcloud不成功，改用在线词云生成器== 阅读全文

posted @ 2018-04-27 20:06 阿丹丹酱阅读(192) 评论(0) 推荐(0) 编辑

熟悉常用的hdfs操作

摘要：编程实现以下指定功能，并利用Hadoop提供的Shell命令完成相同任务：向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件； if $(hdfs dfs -test -e text.txt); then $(hdfs dfs -ap 阅读全文

posted @ 2018-04-25 20:50 阿丹丹酱阅读(515) 评论(0) 推荐(0) 编辑

数据化结构与保存

摘要： import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newsId = re.findall('\_(.*).html', newsUrl)[0].split('/'... 阅读全文

posted @ 2018-04-12 20:29 阿丹丹酱阅读(135) 评论(0) 推荐(0) 编辑

获取全部校园网信息

摘要： 1.取出一个新闻列表页的全部新闻包装成函数。 2.获取总的新闻篇数，算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。爬取南科大校园网的新闻运行代码结果 ————————————————————纯洁的分割线———————————————————— 新闻网址： www.sustc.edu. 阅读全文

posted @ 2018-04-11 15:16 阿丹丹酱阅读(554) 评论(0) 推荐(0) 编辑

爬取校园新闻

摘要： def getNewsId(url): newsId = re.findall(r'\_(.*).html', newsUrl)[0][-4:] clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(newsId) clickRes = requests.get(clickUrl)... 阅读全文

posted @ 2018-04-03 14:36 阿丹丹酱阅读(131) 评论(0) 推荐(0) 编辑

网络爬虫基本练习

摘要： 0.可以新建一个用于练习的html文件，在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器，生成结构树 3.练习：取出h1标签的文本取出a标签的链接取出所有li标签的所有内容取出第2个li标签的a标签的第阅读全文

posted @ 2018-03-28 22:36 阿丹丹酱阅读(135) 评论(0) 推荐(0) 编辑