2018年5月25日

Hadoop综合大作业+补爬虫大作业

摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 在网络上下载了一本英文小说 现在将xs。txt放入HDFS中并用hive查询统计,截图如下: 2.补《爬虫大作业》 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。 阅读全文

posted @ 2018-05-25 20:19 182冯志坚 阅读(200) 评论(0) 推荐(0) 编辑

2018年5月23日

爬虫大作业

摘要: 1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代 阅读全文

posted @ 2018-05-23 14:38 182冯志坚 阅读(108) 评论(0) 推荐(0) 编辑

2018年5月16日

hive基本操作与应用

摘要: start-all.sh hdfs dfs -put ~/wordcount.txt input/wordcount.txt hive > create database test02; > create table test02(content string); > load data inpath '/user/hadoop/input/wordcount.txt' into table... 阅读全文

posted @ 2018-05-16 21:59 182冯志坚 阅读(135) 评论(0) 推荐(0) 编辑

2018年5月9日

用mapreduce 处理气象数据集

摘要: 用mapreduce 处理气象数据集 编写程序求每日最高最低气温,区间最高最低气温 cd /usr/hadoopsodu mkdir qxcd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa. 阅读全文

posted @ 2018-05-09 21:53 182冯志坚 阅读(62) 评论(0) 推荐(0) 编辑

2018年5月8日

熟悉常用的HBase操作

摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-08 21:52 182冯志坚 阅读(137) 评论(0) 推荐(0) 编辑

2018年4月12日

数据结构化与保存

摘要: 提取包含点击次数、标题、来源的前6行数据 print(pan[['click', 'sources', 'title']].head(6)) 提取‘学校综合办’发布的,‘点击次数’超过3000的新闻。 print(pan[(pan['click'] > 3000) & (pan['sources'] 阅读全文

posted @ 2018-04-12 19:38 182冯志坚 阅读(102) 评论(0) 推荐(0) 编辑

2018年4月11日

获取全部校园新闻

摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 阅读全文

posted @ 2018-04-11 21:35 182冯志坚 阅读(145) 评论(0) 推荐(0) 编辑

2018年4月9日

爬取校园新闻首页的新闻的详情

摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re res = requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/') res.encoding = 'utf-8' soup = BeautifulSoup(res.te... 阅读全文

posted @ 2018-04-09 20:53 182冯志坚 阅读(114) 评论(0) 推荐(0) 编辑

2018年3月29日

网络爬虫基础练习

摘要: import requests from bs4 import BeautifulSoup res = requests.get('http://news.qq.com/') res.encoding = 'UTF-8' soup = BeautifulSoup(res.text, 'html.parser') # 取出h1标签的文本 for h1 in soup.find_all('h1')... 阅读全文

posted @ 2018-03-29 20:41 182冯志坚 阅读(95) 评论(0) 推荐(0) 编辑

2018年3月28日

中文词频统计

摘要: import jieba file=open('text','r',encoding = 'utf-8') wordList=list(jieba.cut(file.read())) wordDict={} for word in wordList: if(len(word)==1): continue wordDict[word]= wordList.cou... 阅读全文

posted @ 2018-03-28 21:37 182冯志坚 阅读(89) 评论(0) 推荐(0) 编辑

导航