2018年5月24日

Hadoop综合大作业

摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 由于爬虫大作业做的中文分析词云,所以这里采用下载长篇英文小说 The old man and sea来进行词频统计。 首先要启动dfs: 在hdfs上创建文件夹oldman: 查看hdfs的所有文件 上传到 阅读全文

posted @ 2018-05-24 21:29 242韦兴纳 阅读(136) 评论(0) 推荐(0) 编辑

2018年5月11日

用Python编写WordCount程序任务

摘要: 用Python编写WordCount程序任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 编写map函数,reduce函数 将其权限作出相应修改 本机上测试运行代码 放到H 阅读全文

posted @ 2018-05-11 17:04 242韦兴纳 阅读(255) 评论(0) 推荐(0) 编辑

2018年5月8日

熟悉Hbase基本操作

摘要: 1、以下关系型数据库中的表和数据,要求将其转换为适合于Hbase存储的表并插入数据: 学生表(studen) 2. 用Hadoop提供的HBase Shell命令完成相同任务: 列出HBase所有的表的相关信息;list 在终端打印出学生表的所有记录数据; 向学生表添加课程列族; 向课程列族添加数学 阅读全文

posted @ 2018-05-08 17:10 242韦兴纳 阅读(423) 评论(0) 推荐(0) 编辑

2018年4月30日

爬虫大作业(2017年科技界发生了哪些变化——爬取17年腾讯新闻科技板块下的所有新闻)

摘要: 一、主题 本次作业是通过爬取腾讯新闻科技板块下2017年所有的新闻数据来分析17年科技界都发生了哪些热门事件,通过词云分析得出17年度科技界最热的词语。 二、实现过程 1、首先打开腾讯新闻网,进入科技频道。然后通过浏览器检查工具查看网页源代码,查找规律。 可以看出腾讯新闻科技频道下的新闻列表网址的规 阅读全文

posted @ 2018-04-30 21:59 242韦兴纳 阅读(1294) 评论(3) 推荐(0) 编辑

2018年4月18日

数据结构化与保存

摘要: 1. 将新闻的正文内容保存到文本文件。 def writeNewsDetail(content): f = open('gzccnews.txt', 'a', encoding='utf-8') f.write(content) f.close() 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.... 阅读全文

posted @ 2018-04-18 20:14 242韦兴纳 阅读(125) 评论(0) 推荐(0) 编辑

2018年4月3日

爬取校园新闻首页的新闻

摘要: '''使用开发者工具观察,每则新闻所在的分枝<li>遍历每个li排除一些非新闻列表的<li> 获取每条新闻的时间,标题,描述,链接。通过链接获取新闻页,取得新闻正文,作者,发布时间等数据项对info字符串进行分解,取得时间,作者,审核等数据项。'''import requestsimport ref 阅读全文

posted @ 2018-04-03 17:51 242韦兴纳 阅读(138) 评论(0) 推荐(0) 编辑

2018年3月29日

网络爬虫练习

摘要: 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 soup.p #标签名,返回第一个 soup.head soup.p.name #字符串 soup.p. attrs #字典,标签的所 阅读全文

posted @ 2018-03-29 16:19 242韦兴纳 阅读(130) 评论(0) 推荐(0) 编辑

2018年3月27日

综合练习-词频统计

摘要: 1.英文词频统 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP20 将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。 2.中文词频统计 下载一长篇 阅读全文

posted @ 2018-03-27 22:30 242韦兴纳 阅读(239) 评论(0) 推荐(0) 编辑

2018年3月22日

组合数据类型综合练习

摘要: 1.组合数据类型练习: 分别定义字符串,列表,元组,字典,集合,并进行遍历。 总结列表,元组,字典,集合的联系与区别。 阅读全文

posted @ 2018-03-22 21:31 242韦兴纳 阅读(138) 评论(0) 推荐(0) 编辑

2018年3月20日

Python综合练习

摘要: 产生校园新闻的一系列新闻页网址 http://news.gzcc.cn/html/xiaoyuanxinwen/4.html https://docs.python.org/3/library/turtle.html 产生python文档的网址 阅读全文

posted @ 2018-03-20 16:03 242韦兴纳 阅读(191) 评论(0) 推荐(0) 编辑

导航