05 2023 档案
摘要:文章目录 一.安装二.理论基础三.实战2.1 hbase2.2 sql2.3 机器学习2.4 Graphx2.5 报错 四.源码 一.安装 Spark介绍系列02–安装集群:https://limeng.blog.csdn.net/article/details/82803783hive on sp
阅读全文
摘要:背景 Claude 由 OpenAI 副总裁离职创立的和chatGPT对位的AI机器人,号称是chatGPT一生的对手! 比之前的一些模型如GPT-3 要强大得多,因此Claude 被认为是ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研究的初创公司Anthropic
阅读全文
摘要:用于 LLM 的公开的数值数据 这个存储库包含了用于训练 OpenAI 的大型语言模型的一部分公开的数值数据。这些数据已经被处理成符合 OpenAI 的数据管道格式。此外,我们还提供了一个 Python 脚本,用于将原始的表格数据转换成适合训练的格式。 数据来源 这些数据来自于以下公开的来源: 美国
阅读全文
摘要:背景 上学的时候,认识一些朋友,他们都在记录一些技术内容,后来也跟他们学习,在一些平台学习记录。 出来工作后,内容运营有些方向性,我一开始就打算学习大数据方面,所以写作方向是大数据AI方面。 分析 应用开发:刚入行时候就没有兴趣。游戏开发:小时候父亲就是卖游戏软件方面,初中以后就不玩游戏,觉得没有意
阅读全文
摘要:文章目录 背景流程示例定义问题数据收集构建特征选择算法并建立模型训练模型模型评估显示 背景 通过示例梳理AI模型训练流程,示例比较简单,方便演示。 流程 机器学习实战步骤 定义问题数据收集和预处理选择算法并建立模型训练模型模型评估和优化 示例 定义问题 根据公开数据集预测加州房价分布 数据收集 im
阅读全文
摘要:一.aggregate 函数 Flink的AggregateFunction是一个基于中间计算结果状态进行增量计算的函数,由于是迭代计算方式,所以,在窗口处理过程中,不用缓存整个窗口数据,所以效率执行比较高。 该函数会将给定的聚合函数应用于每个窗口和键,对每个元素调用聚合函数,以递增方式聚合值,并将
阅读全文
摘要:一.简介 基本转换做一个概述,基于时间算子(窗口,水位线)以及其他一些特殊转换会在后面文章介绍。 DataStream API的转换分为四大类: 作用于单个事件的基本转换。 针对相同键值事件的KeyedStream转换。 将多条数据流合并为一条或将一条数据流拆分成多条流转换。 对流中的事件进行重新组
阅读全文
摘要:背景 JupyterLab 是用于笔记本、代码和数据的最新的基于 Web 的交互式开发环境。其灵活的界面允许用户配置和安排数据科学、科学计算、机器学习方面的工作流程。模块化设计邀请扩展来扩展和丰富功能。 部署 要在本机搭建 Jupyter Notebook 平台进行机器学习项目,有一种最简单的方法,
阅读全文
摘要:Spark GraphX 是一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。本文以多年的应用实战的角度去讲解把相关知识串联起来(集团谱系为例)。 GraphX 介绍GraphX 实现分析GraphX 实例相关调优集团成员实
阅读全文
摘要:背景 ChatGPT 时代,开发新的 AI 应用的门槛大大降低了,你无需要去研究机器学习,深度学习等等模型,还有去准备GPU硬件,再新的趋势下,伴随着 GPT-3、Stable Diffusion 这样预训练好的大型基础模型的出现,以及这些模型的能力通过开放 API 的形式提供出来,即使没有任何机器
阅读全文
摘要:生成式 AI 景观: https://ai-collection.org/zh-CN/ ChatGPT聚合站:https://hokex.com 游戏生成站:https://latitude.io/ 家庭作业辅助站:https://ontimeai.com/ 文字转语音站:https://www.r
阅读全文