会员
众包
新闻
博问
闪存
赞助商
Trae
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
FF
博客园
首页
新随笔
联系
订阅
管理
2018年5月21日
Hadoop综合大作业
摘要: 一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 1.启动hadoop 2.Hdfs上创建文件夹并查看 3.上传英文词频统计文本至hdfs 4.启动Hive 5.导入文件内容到表docs并查看 6.进行词频统计,结果放在表t_word_count里 7.查看统
阅读全文
posted @ 2018-05-21 12:25 191钟菲菲
阅读(1038)
评论(0)
推荐(0)
2018年5月16日
hive基本操作与应用
摘要: 通过hadoop上的hive完成WordCount 1.启动hadoop 2.Hdfs上创建文件夹 3.上传文件至hdfs 4.启动Hive 5.创建原始文档表 6.导入文件内容到表docs并查看 7.用HQL进行词频统计,结果放在表word_count里 8.查看统计结果
阅读全文
posted @ 2018-05-16 20:41 191钟菲菲
阅读(107)
评论(0)
推荐(0)
2018年4月30日
爬虫大作业
摘要: 1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代
阅读全文
posted @ 2018-04-30 20:17 191钟菲菲
阅读(185)
评论(0)
推荐(0)
2018年4月25日
熟悉常用的HDFS操作
摘要: 编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: ./bin/hdfs dfs -rm news.txt ./bin/hdfs dfs -ls input 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;
阅读全文
posted @ 2018-04-25 20:31 191钟菲菲
阅读(914)
评论(0)
推荐(0)
2018年4月12日
数据结构化与保存
摘要: 1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用pand
阅读全文
posted @ 2018-04-12 18:01 191钟菲菲
阅读(157)
评论(0)
推荐(0)
2018年4月11日
获取全部校园新闻
摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 运行结果: 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。
阅读全文
posted @ 2018-04-11 21:51 191钟菲菲
阅读(113)
评论(0)
推荐(0)
2018年3月29日
网络爬虫基础练习
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(
阅读全文
posted @ 2018-03-29 21:13 191钟菲菲
阅读(103)
评论(0)
推荐(0)
2018年3月28日
中文词频统计
摘要: 运行结果:
阅读全文
posted @ 2018-03-28 21:53 191钟菲菲
阅读(160)
评论(0)
推荐(1)
2018年3月26日
综合练习:英文词频统计
摘要: 词频统计预处理 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP10 str='''Earthquake early warning detection is more effective for minor quakes than major ones. This ...
阅读全文
posted @ 2018-03-26 17:54 191钟菲菲
阅读(187)
评论(0)
推荐(1)
2018年3月21日
字符串、组合数据类型练习
摘要: 1.字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 方法一: 方法二: https://docs.python.org/3/library/turtle.html 产生python文档的网址 h
阅读全文
posted @ 2018-03-21 17:50 191钟菲菲
阅读(205)
评论(0)
推荐(1)
下一页
公告
昵称:
191钟菲菲
园龄:
8年11个月
粉丝:
8
关注:
7
+加关注
<
2025年8月
>
日
一
二
三
四
五
六
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔档案
2018年5月(2)
2018年4月(4)
2018年3月(7)
2016年12月(2)
2016年10月(2)
2016年9月(2)
阅读排行榜
1. 简单的词法分析程序(3030)
2. 对编译原理的看法(1192)
3. 递归下降分析-实验报告(1123)
4. Hadoop综合大作业(1038)
5. 熟悉常用的HDFS操作(914)
评论排行榜
1. 实验报告1—’词法分析(2)
2. 递归下降分析-实验报告(1)
推荐排行榜
1. 中文词频统计(1)
2. 综合练习:英文词频统计(1)
3. 字符串、组合数据类型练习(1)
4. Python基础(1)
5. 熟悉常用的Linux操作(1)
最新评论
1. Re:递归下降分析-实验报告
厉害哦,菲
--OuZeBo
2. Re:实验报告1—’词法分析
只有当不输入关键字时输入标识符,才能输出标识符的单词符号这个问题是因为当你输入关键字后,temp变为了1,后面再次判断时,你没有把temp变回0,temp一直会等于1,所以不会输出标识符。应该每次判断...
--193杨晓玲
3. Re:实验报告1—’词法分析
思路清晰,但就是还有一点点不足,只有当不输入关键字时输入标识符,才能输出标识符的单词符号。有待改进,加油
--187司徒春燕
点击右上角即可分享