摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 a.开启 cd /usr/local cd hive/lib start-all.sh b.查看 Jps c.将网络爬虫大作业的结果存入txt,并且保存到hdfs里面。 这是爬虫爬出来的数据 #新建路径/web 阅读全文
posted @ 2018-06-09 12:47 262罗肖凤 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 1.启动hadoop 2.Hdfs上创建文件夹并查看 上传英文词频统计文本至hdfs 启动Hive 导入文件内容到表docs并查看 进行词频统计,结果放在表t_word_count2里 查看统计结果 hive基本操作与应用 通过hadoop上的hive完成WordCount 启动hadoop ssh 阅读全文
posted @ 2018-05-25 10:24 262罗肖凤 阅读(623) 评论(0) 推荐(0) 编辑
摘要: f = open("C:/Users/ZD/PycharmProjects/test/test.txt", 'w+', encoding='utf8')import jiebaimport requestsfrom bs4 import BeautifulSoupdef songlist(url): 阅读全文
posted @ 2018-05-23 15:33 262罗肖凤 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 import requestsimport re url = "http://news.gz 阅读全文
posted @ 2018-04-11 08:22 262罗肖凤 阅读(176) 评论(0) 推荐(0) 编辑
摘要: import requestsfrom bs4 import BeautifulSoup url="http://news.gzcc.cn/html/xiaoyuanxinwen/"res=requests.get(url)res.encoding="utf-8" soup=BeautifulSou 阅读全文
posted @ 2018-04-03 11:25 262罗肖凤 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( 阅读全文
posted @ 2018-04-03 11:22 262罗肖凤 阅读(147) 评论(0) 推荐(0) 编辑
摘要: string='''Twinkle, twinkle, little star. Twinkle, twinkle, little star, how I wonder what you are. Up above the world so high, like a diamond in the s 阅读全文
posted @ 2018-03-27 22:41 262罗肖凤 阅读(136) 评论(0) 推荐(0) 编辑
摘要: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 >>> s="http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html">>> s[45:54]' 阅读全文
posted @ 2018-03-21 15:51 262罗肖凤 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd.. (3)回到自己的主文件夹 cd~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls /usr mkdir命令:新建新 阅读全文
posted @ 2018-03-13 11:27 262罗肖凤 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 1.试述大数据对思维方式的重要影响。 近年来大数据技术的快速发展深刻改变了我们的生活、工作和思维方式。大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求 阅读全文
posted @ 2018-03-06 11:32 262罗肖凤 阅读(281) 评论(0) 推荐(0) 编辑