摘要: python快速入门 python快速入门 一、python3安装 https://www.python.org/下载python3.x版本,3.x版本也是未来主流版本。 测试python解释器是否安装成功! https://www.jetbrains.com.cn/pycharm/安装pychar工具,学生可以使用社区 阅读全文
posted @ 2025-06-12 08:14 戴莫先生Study平台 阅读(68) 评论(0) 推荐(0)
摘要: Kafka快速入门 Kafka快速入门 1、MQ简介 生产者向队列发送消息,消费者从队列消费消息,先进先出属于队列类型。常用的消息中间件有RabbitMQ、RocketMQ、kafka等,使用消息中间件目的是:程序解耦,异步(请求同步要求前面的执行完成后才能执行)、数据削峰(短时间大量的请求访问同一个URL,服务器短时 阅读全文
posted @ 2023-12-24 15:46 戴莫先生Study平台 阅读(215) 评论(0) 推荐(0)
摘要: Hadoop快速入门 Hadoop快速入门 一、大数据思维 分而治之 所谓“分而治之”,就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个分别找出各部分的解,再把各部分的解组成整个问题的解。 传统的计算都是基于内存去完成的,但是内存是有限的,数据量太大,导致无法在较短时间内迅速解决,也就是 阅读全文
posted @ 2023-12-16 15:03 戴莫先生Study平台 阅读(263) 评论(0) 推荐(0)
摘要: JAVASE学习笔记 # JavaSE基础知识 ## 1、Java应用与特性 ```tex jdk8 常用 jdk11 常用 jdk17 推荐使用 java之父高斯林 1、常用的java程序分为JavaSE、JavaEE、Java ME三个版本 2、J2SE:定位在服务端的开发(WEB网页) 3、JavaME:定位在消费 阅读全文
posted @ 2023-08-09 09:22 戴莫先生Study平台 阅读(162) 评论(0) 推荐(0)
摘要: 大模型基础 5、大模型基础 一、BERT模型 核心概念 BERT是2018年10月由Google AI研究院提出的一种预训练模型. 1、BERT是transformer编码器中的预训练方法(基于Transformer的Encoder部分) 2、双向上下文建模:通过掩码机制同时学习单词两侧的上下文信息 如同把人类 阅读全文
posted @ 2025-06-24 00:58 戴莫先生Study平台 阅读(103) 评论(0) 推荐(0)
摘要: Transformer基础知识 4、Transformer基础知识 一、背景 BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩! 论文地址: https:/ 阅读全文
posted @ 2025-06-23 09:14 戴莫先生Study平台 阅读(82) 评论(0) 推荐(0)
摘要: 神经网络基础 3、神经网络基础 一、计算机视觉 计算机图像是多维的 而文本是二维的具有强相关性 比如:明明请我吃饭 我请明明吃饭 完全意思就不一样。 二、图像分类 给不同的图像给予不同的标签来识别图像。 像素图==>特征图==>特征融合==>输出 9格像素中每个格向量相乘求平均,值越高图像相识度越高 接近1表示匹 阅读全文
posted @ 2025-06-23 08:15 戴莫先生Study平台 阅读(44) 评论(0) 推荐(0)
摘要: NLP基础 NLP基础 1、自然语言处理简介 自然语言处理关注的是自然语言与计算机之间的交互(NLP)。 1.1 自然语言处理简介 自然语言生成恰恰相反,结构化数据中以读取的方式自动生成文本。三个阶段:文本规划(完成结构化数据中的基础内容规划)、语句规划(从结构化数据中组合语句来表达信息流)、实现(产生语法通顺 阅读全文
posted @ 2025-06-23 07:16 戴莫先生Study平台 阅读(74) 评论(0) 推荐(0)
摘要: 大模型科普 1、大模型科普 一、大模型发展 GPT-1:2018年首个生成式预训练transformer无监督预训练和有监督微调 GPT-2: 训练数据量参数扩大至15亿,无监督训练、无样本训练 提升生成能力 文本响应 GPT-3:参数扩大1750亿 通过“上下文学习”概念,实现少样学习(单样本事例)任务的高性 阅读全文
posted @ 2025-06-23 06:00 戴莫先生Study平台 阅读(101) 评论(0) 推荐(0)
摘要: 实时数仓项目笔记 实时项目笔记处理 一、行为日志数据采集 1、ngx_kafka_module安装 先提前安装好nginx和kafka组件,目的配置nginx,nginx获取到分布式系统的消息轮询进行分发到kafka中进行消费! 安装编译c客户端的kafka源码 #git 拉取librdkafka git clone 阅读全文
posted @ 2024-03-07 14:56 戴莫先生Study平台 阅读(211) 评论(0) 推荐(0)
摘要: FlinkSQL实战开发 FlinkSQL实战开发 1、基础知识 FlinkSQL分为Table API和SQL API,是架构于Flink Core之上用SQL予以方便快捷地进行结构化数据处理的上层库。 工作流程 SQL和Table在进入Flink以后转化成统一的数据结构表达形式,也就是逻辑计划(logic plan),其 阅读全文
posted @ 2024-01-14 22:48 戴莫先生Study平台 阅读(1448) 评论(0) 推荐(0)
摘要: Flink实时处理入门 Flink实时处理入门 1、Flink框架介绍 Flink 诞生于欧洲的一个大数据研究项目 StratoSphere。它是由 3 所地处柏林的大学和欧洲其他一 些大学在 2010~2014 年共同进行的研究项目,由柏林理工大学的教授沃克尔·马尔科(Volker Markl)领衔开发。2019年1月阿 阅读全文
posted @ 2024-01-11 20:23 戴莫先生Study平台 阅读(729) 评论(0) 推荐(0)
摘要: ClickHouse数据库 ClickHouse数据库 一、软件简介 clickHouse是俄罗斯搜索巨头Yandex公司早2016年开源的一个极具"战斗力"的实时数据分析数据库,开发语言是C++,是一用于联机分析(OLAP)的列式数据库管理系统,简称CK,工作速度比传统方法快100-1000倍,Clickhouse的性能超过 阅读全文
posted @ 2024-01-11 20:21 戴莫先生Study平台 阅读(1322) 评论(0) 推荐(0)