会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
240王家乐
博客园
首页
新随笔
联系
订阅
管理
2018年5月24日
Hadoop综合大作业
摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动hadoop: 1 2 start-all.sh jps 1 2 start-all.sh jps 1 2 start-all.sh jps 1 2 start-all.sh jps start-all
阅读全文
posted @ 2018-05-24 10:48 240王家乐
阅读(81)
评论(0)
推荐(0)
编辑
2018年5月17日
hive的基本操作与应用
摘要: 1.启动hadoop 2.Hdfs上创建文件夹 创建的文件夹是datainput 3.上传文件至hdfs 启动Hive 4。创建原始文档表 5.导入文件内容到表docs并查看 6.用HQL进行词频统计,结果放在表word_count里 7.查看统计结果 1.启动hadoop 2.Hdfs上创建文件夹
阅读全文
posted @ 2018-05-17 20:38 240王家乐
阅读(152)
评论(0)
推荐(0)
编辑
2018年5月9日
熟悉HBase基本操作
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 2. 用Hadoop提供的HBase Shell命令完成相同任务: 列出HBase所有的表的相关信息;list 在终端打印出学生表的所有记录数据; 向学生表添加课程列族
阅读全文
posted @ 2018-05-09 20:23 240王家乐
阅读(180)
评论(0)
推荐(0)
编辑
2018年4月28日
爬虫大作业
摘要: 内容保存到TXT 生成词云图片
阅读全文
posted @ 2018-04-28 12:55 240王家乐
阅读(321)
评论(0)
推荐(0)
编辑
2018年4月26日
第三章 熟悉常用的HDFS操作
摘要: 一、Hadoop提供的Shell命令完成相同任务: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的inp
阅读全文
posted @ 2018-04-26 13:36 240王家乐
阅读(206)
评论(0)
推荐(0)
编辑
2018年4月11日
使用正则表达式,取得点击次数,函数抽离
摘要: 学会使用正则表达式 1. 用正则表达式判定邮箱是否输入正确。 import re text = "64sdfsdff942@q.q.com" if re.match(r'^[0-9a-zA-Z_]{0,19}@[0-9a-zA-Z]{1,13}\.[com,cn,net]{1,3}$', text)
阅读全文
posted @ 2018-04-11 20:41 240王家乐
阅读(106)
评论(0)
推荐(0)
编辑
2018年4月3日
爬取校园新闻首页的新闻
摘要: 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将其中的发布时间由str转换成datetime类型。 4. 将完整的代码及运行结果截图发布在作业上。
阅读全文
posted @ 2018-04-03 20:31 240王家乐
阅读(150)
评论(0)
推荐(0)
编辑
2018年3月29日
网络爬虫基础练习
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 soup.p #标签名,返回第一个 soup.head soup.p.name #字符串 soup.p. attrs #字典,标签的所有属性 soup.p. content
阅读全文
posted @ 2018-03-29 22:37 240王家乐
阅读(104)
评论(0)
推荐(0)
编辑
2018年3月27日
综合练习:词频统计
摘要: 1.英文词频统 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP20 将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。 2.中文词频统计 下载一长篇
阅读全文
posted @ 2018-03-27 21:30 240王家乐
阅读(118)
评论(0)
推荐(0)
编辑
2018年3月22日
组合数据类型综合练习;
摘要: 1.组合数据类型练习: 分别定义字符串,列表,元组,字典,集合,并进行遍历。 总结列表,元组,字典,集合的联系与区别。 1 字符串: 2.列表 3.元组 4.字典 5.集合 列表,元组,字典,集合的联系与区别:列表是用[]括起来,元组是用()括起来的,字典集合都是用{}括起来。列表是可变序列,可以索
阅读全文
posted @ 2018-03-22 21:55 240王家乐
阅读(184)
评论(0)
推荐(0)
编辑
下一页