摘要: 要求: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 下载长篇英语小说 上传到hdfs上 启动hive 将数据写入到study表 创建分析表统计 查看分析统计结果 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析 阅读全文
posted @ 2018-05-22 22:45 207钟程泰 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 阅读全文
posted @ 2018-05-17 10:35 207钟程泰 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 用Python编写WordCount程序任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 编写map函数,reduce函数 将其权限作出相应修改 本机上测试运行代码 放到H 阅读全文
posted @ 2018-05-10 22:32 207钟程泰 阅读(545) 评论(1) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-08 16:54 207钟程泰 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop提供的Shell命令完成相同任务: 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 5.查看hdfs中的文件(-ls) 6.显示hdfs中该的文件内容 7.删除本地的txt文件并查看目录 8.从hdfs中将txt下载地本地原来的位置。 9. 阅读全文
posted @ 2018-04-26 19:33 207钟程泰 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 最近找到一个IT网站,想了解下IT热门文章下的重点词。http://blog.jobbole.com/category/it-tech/ 下面介绍下在爬虫遇到的坑: 1、wordcloud 第三方插件导入问题。 大部分人出现过,首先PyCharm在setting下导入会报错误。毕竟我的python3 阅读全文
posted @ 2018-04-20 12:46 207钟程泰 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 1. 将新闻的正文内容保存到文本文件。 def save(content): f = open("content.txt", "a") f.write(content) f.close() 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表n 阅读全文
posted @ 2018-04-17 20:00 207钟程泰 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将其中的发布时间由str转换成datetime类型。 4. 将完整的代码及运行结果截图发布在作业上。 阅读全文
posted @ 2018-04-03 17:39 207钟程泰 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( 阅读全文
posted @ 2018-03-29 10:49 207钟程泰 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 1.英文词频统 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP20 将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。 2.中文词频统计 下载一长篇 阅读全文
posted @ 2018-03-27 17:31 207钟程泰 阅读(218) 评论(0) 推荐(0) 编辑