摘要: 一、用Hive对爬虫大作业产生的文本文件词频统计。 ①启动hadoop: ②将文章(godfather.txt)放在了wc文件中: ③文件上传至hdfs ④启动hive ⑤导入文件内容到表novel ⑥查看统计结果 补交作业: hive基本操作与应用 启动hadoop cd /home/local/ 阅读全文
posted @ 2018-05-25 19:45 172张智恒 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 阅读全文
posted @ 2018-05-22 10:23 172张智恒 阅读(78) 评论(0) 推荐(0) 编辑
摘要: cd /usr/hadoop sodu mkdir qx cd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/2* cd /usr/hadoop/qx/data/ftp.ncdc.noaa.gov/pub/data/noaa/2017... 阅读全文
posted @ 2018-05-09 21:52 172张智恒 阅读(175) 评论(0) 推荐(0) 编辑
摘要: cd /usr/hadoop sodu mkdir qx cd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/1* cd /usr/hadoop/qx/data/ftp.ncdc.noaa.gov/pub/data/noaa/2017 s... 阅读全文
posted @ 2018-05-09 21:49 172张智恒 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-08 21:00 172张智恒 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代 阅读全文
posted @ 2018-04-30 20:35 172张智恒 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件; 从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名; 将HDFS中指定文件的内容输出到终端中; 显示HDFS中指定的文件的读写权限、大小、创建时间 阅读全文
posted @ 2018-04-25 22:59 172张智恒 阅读(274) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newId=re.search('\_(.*).html',newsUrl).group(1).split('/')... 阅读全文
posted @ 2018-04-17 10:25 172张智恒 阅读(76) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import locale import re locale.setlocale(locale.LC_CTYPE,'chinese') def getClickCount(newsUrl): newsId = re.findall(... 阅读全文
posted @ 2018-04-11 20:48 172张智恒 阅读(249) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url); res.encoding = "utf-8" soup = BeautifulSoup(res.... 阅读全文
posted @ 2018-04-04 15:17 172张智恒 阅读(151) 评论(0) 推荐(0) 编辑