随笔分类 - 大数据
摘要:https://blog.csdn.net/cafuc46wingw/article/details/45482385
阅读全文
摘要:scala> import spark.implicits._ scala> val sentenceData = spark.createDataFrame(Seq( | (0, "I heard about Spark and I love Spark"), | (0, "I wish Java
阅读全文
摘要:1.读取数据库 2.写入数据库
阅读全文
摘要:这个提取关键字和摘要的代码是我网上借鉴别人的。提取关键字的过程是先切词,然后统计各个词语的频率。取出频率高于某一个数值的词语组成关键词。
阅读全文
摘要:先把word文档修改后缀改成.txt。然后观察每条数据的特征。用条件判断每条数据,然后写入数据库。
阅读全文
摘要:1.编程实现将 RDD 转换为 DataFrame源文件内容如下(包含 id,name,age): 请将数据复制保存到 Linux 系统中,命名为 employee.txt,实现从 RDD 转换得到DataFrame,并按“id:1,name:Ella,age:36”的格式打印出 DataFrame
阅读全文
摘要:启动zookeeper 使用命令查看zookeeper是否启动成功: 启动kafka Brokerr 使用命令查看kafka Broker是否启动更成功 在kafka中创建topic 'test' bin/kafka-topics.sh --create --zookeeper localhost:
阅读全文
摘要:1. 创建文件 放入一个txt文件 然后查看hdfs上的文件夹 不知道为什么并没有出现本地的文件 也不报错 后来发现,没有在logs文件夹下面,在newlogs文件夹下面
阅读全文
摘要:教程:http://www.bubuko.com/infodetail-2523113.html 安装好mysql,然后进入mysql: 创建hive用户: 给hive用户赋权: 创建hive数据库,再将该数据库的全部权限赋值给hive用户 启动hive 解决方法:两个log4j冲突了,使用hado
阅读全文
摘要:文档编号: 文档编号: 1 引言 1.1 编写目的 编写详细设计的目的是:在概要设计的基础上,完成系统划分模块及明确模块之间的关系,同时给出相应的用户界面设计。 1.2 适用对象及范围 本设计说明书适用于参加本项目的所有管理人员、开发人员和维护人员。包括:项目经理、系统分析员、高级程序员、代码程序员
阅读全文
摘要:词云 搜索 typeIndex=null; ...
阅读全文
摘要:统计词语出现的频率,并且按从高到低的顺序报错在文件中
阅读全文
摘要:利用python过滤去没用的词语,过滤的词语存储在停用文件中。
阅读全文
摘要:利用python将标题切割成词语
阅读全文
摘要:1.实验内容与完成情况:(实验具体步骤和实验截图说明) (一) MySQL 数据库操作 学生表 Student Name English Math Computer zhangsan 69 86 77 lisi 55 100 88 根据上面给出的 Student 表,在 MySQL 数据库中完成如下操作: (1)在 My...
阅读全文
摘要:.实验内容与完成情况:(实验具体步骤和实验截图说明) (一)编程实现以下指定功能,并用 Hadoop 提供的 HBase Shell 命令完成相同任务: (1) 列出 HBase 所有的表的相关信息,例如表名; 列出所有数据表: 列出表的结构 查询表是否存在 查询表是否可用 packagecn.wl.edu.hbase; import java.io.IOException; pub...
阅读全文
摘要:(一)编程实现以下功能,并利用 Hadoop 提供的 Shell 命令完成相同任务: (1) 向 HDFS 中上传任意文本文件,如果指定的文件在 HDFS 中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件; 上传文件 追加文件 覆盖文件 编程: package org.apache.hadoop.examples; import java.io.FileI...
阅读全文

浙公网安备 33010602011771号