摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动Hive 上传到hdfs 传到数据库 存到word_count表 查询结果 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。 爬虫大作业产生CSV文件一览图 阅读全文
posted @ 2018-05-25 17:24 183区展伯 阅读(126) 评论(0) 推荐(0) 编辑
摘要: ... 阅读全文
posted @ 2018-05-16 21:55 183区展伯 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 回去再修改 阅读全文
posted @ 2018-05-09 21:45 183区展伯 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 阅读全文
posted @ 2018-05-08 21:55 183区展伯 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 生成词云 阅读全文
posted @ 2018-04-30 20:59 183区展伯 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 1.编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件; 阅读全文
posted @ 2018-04-25 21:44 183区展伯 阅读(2436) 评论(0) 推荐(0) 编辑
摘要: 1. 将新闻的正文内容保存到文本文件 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用panda 阅读全文
posted @ 2018-04-12 20:48 183区展伯 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 结果如下: 阅读全文
posted @ 2018-04-11 21:28 183区展伯 阅读(116) 评论(0) 推荐(0) 编辑
摘要: Spring Security认证是由 AuthenticationManager 来管理的,但是真正进行认证的是 AuthenticationManager 中定义的 AuthenticationProvider。AuthenticationManager 中可以定义有多个 Authenticat 阅读全文
posted @ 2018-04-11 11:14 183区展伯 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 要求: 根据上面要求,代码如下: 运行结果如下: 阅读全文
posted @ 2018-04-09 14:10 183区展伯 阅读(129) 评论(0) 推荐(0) 编辑