随笔分类 - 大数据
摘要:一、bert语言模型介绍 BERT语言模型是自然语言处理领域最近的一项重大成果。它的主要特点是双向编码器和变压器。BERT使用Transformer模型进行训练,它是一种自注意力机制,因此可以对输入句子中的所有单词进行编码,而不仅仅是像传统的RNN模型一样只考虑前面的单词。这种模型的特点使得BERT
阅读全文
摘要:Sqoop的安装 注意:在安装Sqoop之前要配置好本机的Java环境和Hadoop环境 先把spoop的安装包 sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 拷贝在系统目录下的 /root/softwares下面 解压配置环境变量 # 解压tar.gz包 [root@q
阅读全文
摘要:一、什么是人工智能 人工智能技术是一种模拟和扩展人类智力的计算机系统和应用程序。它可以学习、理解、推理、适应和自我修复。在当今社会中,人工智能技术已经成为了各行各业的关键技术,如医疗保健、金融、交通、能源等等。除此之外,人工智能技术还可以用于监视和预测自然灾害、提高农业生产效率、改善教育质量等方面。
阅读全文
摘要:多表查询是指在关系型数据库中,通过同时查询多个数据表来检索相关数据的操作。这种查询方式通常用于需要在多个数据表中搜索和比较数据的情况,以获取更完整和准确的结果。 在多表查询中,使用联接(join)操作将多个表连接在一起,并使用条件语句来指定要检索的数据。联接操作可以使用不同的方式进行,包括内部联接、
阅读全文
摘要:DQL是数据查询语言(Data Query Language)的缩写,是一种用于从数据库中检索数据的编程语言。DQL是SQL(结构化查询语言)的子集,用于查询关系型数据库,例如MySQL、Oracle和SQL Server等。 DQL提供了多种查询操作,如SELECT、FROM、WHERE、GROU
阅读全文
摘要:Hadoop是一种开源的分布式计算框架,它在Google的MapReduce论文发表后大受欢迎,并被广泛应用。Hadoop框架包括一个分布式文件系统(HDFS),它允许用户以分布式方式存储和管理大量数据,以及一个MapReduce编程模型,它可以将复杂的计算任务分解为可以并行运行的任务。 Hadoo
阅读全文
摘要:1、基本概念 无界和有界数据。任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。数据可以被作为 无界 或者 有界 流来处理。 无界流 有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理
阅读全文
摘要:1.1. 什么是IO流 IO流: Input/Output Stream 流: 指的是一串流动的数据, 在数据在流中按照指定的方向进行流动。 实现数据的读取、写入的功能。 1.2. IO流的使用场景 使用File类, 只能做关于文件的操作, 获取属性、 创建文件、 删除文件、 移动文件等操作, 但是
阅读全文
摘要:这里我们讲解一下SparkSQL的优化器系统Catalyst,Catalyst本质就是一个SQL查询的优化器,而且和 大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等)。了解Catalyst的SQL优化流程,也就基本了解了所有其他SQL处理引擎的
阅读全文
摘要:1 软件包下载 jdk1.8 (jdk1.8.0_231) idea(包括2018,2019) (ideaIC-2019.3.3/ideaIC-2018.3.5) 汉化包:汉化包.rar maven3.6.3 (apache-maven-3.6) 2 jdk的安装 第一:把包直接放到自定义目录下 第
阅读全文
摘要:随着信息产业的迅猛发展,大数据应用逐渐落地,行业人才需求量逐年扩大。大数据成为目前最具前景的高薪行业之一,大数据分析工程师、大数据开发工程师等大数据人才也成为市场紧缺型人才,薪资一涨再涨。 很多人想要加入到大数据开发行列,却又不知道怎么入手。接下来小编就给大家分享一份完整的大数据学习路线,助力大家快
阅读全文

浙公网安备 33010602011771号