会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
262罗肖凤
博客园
首页
新随笔
联系
订阅
管理
2018年6月9日
1.用Hive对爬虫大作业产生的文本文件2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。
摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 a.开启 cd /usr/local cd hive/lib start-all.sh b.查看 Jps c.将网络爬虫大作业的结果存入txt,并且保存到hdfs里面。 这是爬虫爬出来的数据 #新建路径/web
阅读全文
posted @ 2018-06-09 12:47 262罗肖凤
阅读(234)
评论(0)
推荐(0)
2018年5月25日
Hadoop综合大作业加上以前漏掉的作业
摘要: 1.启动hadoop 2.Hdfs上创建文件夹并查看 上传英文词频统计文本至hdfs 启动Hive 导入文件内容到表docs并查看 进行词频统计,结果放在表t_word_count2里 查看统计结果 hive基本操作与应用 通过hadoop上的hive完成WordCount 启动hadoop ssh
阅读全文
posted @ 2018-05-25 10:24 262罗肖凤
阅读(646)
评论(0)
推荐(0)
2018年5月23日
爬虫大作业
摘要: f = open("C:/Users/ZD/PycharmProjects/test/test.txt", 'w+', encoding='utf8')import jiebaimport requestsfrom bs4 import BeautifulSoupdef songlist(url):
阅读全文
posted @ 2018-05-23 15:33 262罗肖凤
阅读(118)
评论(0)
推荐(0)
2018年4月11日
获取全部校园新闻
摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 import requestsimport re url = "http://news.gz
阅读全文
posted @ 2018-04-11 08:22 262罗肖凤
阅读(179)
评论(0)
推荐(0)
2018年4月3日
爬取校园新闻首页的新闻
摘要: import requestsfrom bs4 import BeautifulSoup url="http://news.gzcc.cn/html/xiaoyuanxinwen/"res=requests.get(url)res.encoding="utf-8" soup=BeautifulSou
阅读全文
posted @ 2018-04-03 11:25 262罗肖凤
阅读(195)
评论(0)
推荐(0)
网络爬虫基础练习
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(
阅读全文
posted @ 2018-04-03 11:22 262罗肖凤
阅读(150)
评论(0)
推荐(0)
2018年3月27日
英文词频统计
摘要: string='''Twinkle, twinkle, little star. Twinkle, twinkle, little star, how I wonder what you are. Up above the world so high, like a diamond in the s
阅读全文
posted @ 2018-03-27 22:41 262罗肖凤
阅读(147)
评论(0)
推荐(0)
2018年3月21日
字符串练习
摘要: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 >>> s="http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html">>> s[45:54]'
阅读全文
posted @ 2018-03-21 15:51 262罗肖凤
阅读(91)
评论(0)
推荐(0)
2018年3月13日
熟悉常用的Linux操作
摘要: 请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd.. (3)回到自己的主文件夹 cd~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls /usr mkdir命令:新建新
阅读全文
posted @ 2018-03-13 11:27 262罗肖凤
阅读(261)
评论(0)
推荐(0)
2018年3月6日
大数据概述
摘要: 1.试述大数据对思维方式的重要影响。 近年来大数据技术的快速发展深刻改变了我们的生活、工作和思维方式。大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求
阅读全文
posted @ 2018-03-06 11:32 262罗肖凤
阅读(327)
评论(0)
推荐(0)
下一页
公告