会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
区伯
博客园
首页
新随笔
联系
订阅
管理
2018年5月25日
hadoop大作业
摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动Hive 上传到hdfs 传到数据库 存到word_count表 查询结果 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。 爬虫大作业产生CSV文件一览图
阅读全文
posted @ 2018-05-25 17:24 183区展伯
阅读(145)
评论(0)
推荐(0)
2018年5月16日
hive基本操作与应用
摘要: ...
阅读全文
posted @ 2018-05-16 21:55 183区展伯
阅读(97)
评论(0)
推荐(0)
2018年5月9日
用mapreduce 处理气象数据集
摘要: 回去再修改
阅读全文
posted @ 2018-05-09 21:45 183区展伯
阅读(104)
评论(0)
推荐(0)
2018年5月8日
熟悉常用的HBase操作
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age)
阅读全文
posted @ 2018-05-08 21:55 183区展伯
阅读(137)
评论(0)
推荐(0)
2018年4月30日
爬虫大作业
摘要: 生成词云
阅读全文
posted @ 2018-04-30 20:59 183区展伯
阅读(143)
评论(0)
推荐(0)
2018年4月25日
第三章 熟悉常用的HDFS操作
摘要: 1.编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;
阅读全文
posted @ 2018-04-25 21:44 183区展伯
阅读(3736)
评论(0)
推荐(0)
2018年4月12日
数据结构化与保存
摘要: 1. 将新闻的正文内容保存到文本文件 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用panda
阅读全文
posted @ 2018-04-12 20:48 183区展伯
阅读(108)
评论(0)
推荐(0)
2018年4月11日
获取全部校园新闻
摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 结果如下:
阅读全文
posted @ 2018-04-11 21:28 183区展伯
阅读(148)
评论(0)
推荐(0)
springsecurity简单用过后的一些笔记
摘要: Spring Security认证是由 AuthenticationManager 来管理的,但是真正进行认证的是 AuthenticationManager 中定义的 AuthenticationProvider。AuthenticationManager 中可以定义有多个 Authenticat
阅读全文
posted @ 2018-04-11 11:14 183区展伯
阅读(319)
评论(0)
推荐(0)
2018年4月9日
爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离
摘要: 要求: 根据上面要求,代码如下: 运行结果如下:
阅读全文
posted @ 2018-04-09 14:10 183区展伯
阅读(186)
评论(0)
推荐(0)
下一页
公告