172张智恒 - 博客园

2018年5月25日

摘要：一、用Hive对爬虫大作业产生的文本文件词频统计。 ①启动hadoop： ②将文章（godfather.txt）放在了wc文件中： ③文件上传至hdfs ④启动hive ⑤导入文件内容到表novel ⑥查看统计结果补交作业： hive基本操作与应用启动hadoop cd /home/local/ 阅读全文

posted @ 2018-05-25 19:45 172张智恒阅读(118) 评论(0) 推荐(0)

2018年5月22日

hive基本操作与应用

摘要：启动hadoop Hdfs上创建文件夹上传文件至hdfs 启动Hive 创建原始文档表导入文件内容到表docs并查看用HQL进行词频统计，结果放在表word_count里查看统计结果阅读全文

posted @ 2018-05-22 10:23 172张智恒阅读(78) 评论(0) 推荐(0)

2018年5月9日

用mapreduce 处理气象数据集

摘要： cd /usr/hadoop sodu mkdir qx cd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/2* cd /usr/hadoop/qx/data/ftp.ncdc.noaa.gov/pub/data/noaa/2017... 阅读全文

posted @ 2018-05-09 21:52 172张智恒阅读(178) 评论(0) 推荐(0)

mapreduce 处理气象数据集

摘要： cd /usr/hadoop sodu mkdir qx cd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/1* cd /usr/hadoop/qx/data/ftp.ncdc.noaa.gov/pub/data/noaa/2017 s... 阅读全文

posted @ 2018-05-09 21:49 172张智恒阅读(109) 评论(0) 推荐(0)

2018年5月8日

熟悉常用的HBase操作

摘要： 1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-08 21:00 172张智恒阅读(100) 评论(0) 推荐(0)

2018年4月30日

爬虫大作业

摘要： 1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序，从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析，生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客，描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代阅读全文

posted @ 2018-04-30 20:35 172张智恒阅读(309) 评论(0) 推荐(0)

2018年4月25日

熟悉常用的HDFS操作

摘要：向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件；从HDFS中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名；将HDFS中指定文件的内容输出到终端中；显示HDFS中指定的文件的读写权限、大小、创建时间阅读全文

posted @ 2018-04-25 22:59 172张智恒阅读(290) 评论(0) 推荐(0)

2018年4月17日

数据结构化和保存

摘要： import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newId=re.search('\_(.*).html',newsUrl).group(1).split('/')... 阅读全文

posted @ 2018-04-17 10:25 172张智恒阅读(78) 评论(0) 推荐(0)

2018年4月11日

爬取全部校园新闻

摘要： import requests from bs4 import BeautifulSoup from datetime import datetime import locale import re locale.setlocale(locale.LC_CTYPE,'chinese') def getClickCount(newsUrl): newsId = re.findall(... 阅读全文

posted @ 2018-04-11 20:48 172张智恒阅读(253) 评论(0) 推荐(0)

2018年4月4日

爬取校园新闻

摘要： import requests from bs4 import BeautifulSoup from datetime import datetime url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url); res.encoding = "utf-8" soup = BeautifulSoup(res.... 阅读全文

posted @ 2018-04-04 15:17 172张智恒阅读(152) 评论(0) 推荐(0)

公告