1.智能网联汽车数据
数据采集: 专用采集 量产车采集 自动生成
数据挖掘: 数据清洗规整 场景挖掘
数据标注: 人工标注 自动化标注 无需标注 连续帧标注
模型训练: 分模块训练 预训练+微调 自监督训练+微雕
仿真测试: 数据回灌 生成式仿真
数据三要素: 准确-完备-海量
数据采集: RAW格式--压缩采集 采集规程 采集规范--数字化标准
仿真: 高精准、高还原能力
数据污染-数据监察-数据攻防
技术和产品
数据闭环技术提供商:一般提供整套数据闭环解决方案或分离式数据闭环产品
商业和公益
围绕数据进行的收入初次分配
随着数据资源的逐渐丰富,利益分配将成为至关重要的问题
政治和经济-战争和外交
2.类比
"淘金"最重要的工具——铲子
数据淘金 购买一种数据时代最为重要的工具:一台性能不错的笔记本电脑
通过数据分析可以获得关于市场规律和消费者行为的大量信息与知识,数据分析的直接回报很高
数据的跨国、跨区域和跨行业流动
3.数据的未来
信息与通信技术(ICT全写为information and communications technology,学科)
1.数据海量多元、动态多维
巨量链接和海量数据获取、处理与迭代能力
2.新材料新设备的出现--新的功能出现-拓展边界增加种类
软件指数增强硬件功能:在线迭代新技术、动态更替
硬件物料清单(HBOM)和软件物料清单(SBOM) Bill of Materials,物料清单
数据基础设施:网络、安全、流通和算力四个设施
3. 边缘智能: 时敏目标,即时决策
快速感知、自主决策、敏捷行动
战术边缘跨域组网
4.智能派单解决的是有限资源条件下最优任务派发问题
数据抽象: 最早有数据库的形态,有数据表的基本抽象
屏蔽数据访问的复杂性 屏蔽数据分析汇聚的复杂性 屏蔽数据使用和流转的复杂度
数据件就希望对异质多元的数据标准化封装,支撑数据要素和数据主体、数据应用的解耦,最终实现全网加工要素化的数据
具备可管控、可计量、可组装三个基本能力
数据层、元数据层、能力层、管理层和安全层五层
类似的商品组织模式有货架模式和直播模式。一个从供给侧进行组织,一个从消费侧进行组织
现在: 谁拥有数据组织好后拿来用,文件、数据库都是这样
将来 :大模型训练的“李佳琦”为我们整合数据,找到需要的数据
数据集的抽象: 数据件的构造工具
数据库形态的数据抽象
Database system is essentially nothing more than a computed record-keeping system
对现实的记录和反映--是现实的抽象,服务于特定的目的
4.数字时代
科技创新在不同的时代有不同的特点,数字时代的科技创新有重要变化,数据成为创新的重要资源,同时也重新定义了创新各主体间的关系
在“基础研究—应用基础研究—技术开发—产业应用”的模式下
用户端反馈具有了“可传递、可汇聚、可归类”的性质,形成了“产、学、研、用”双向多点信息传递的创新链条
数智时代,海量数据和科学、技术与产业三者融合状态
开放数据体系和开源技术体系日益成为重要的创新组织形态,成为这个时代最好配置创新资源的方式
对数据的抽象以及组织形式的变化
数据库-- 物理数据独立性和逻辑数据独立性
数据模型是对模式本身的抽象,模式是对数据本身结构形式的抽象
数据模式: 三要素包括:数据结构,操作和约束
关系模型: Table
文件系统: 数据的组织依赖处理文件的应用程序
数据库系统: 数据组织和应用程序解耦
:数据组织和大模型之间解耦
数据抽象-版本控制-安全隐私-元数据和可视化查看--质量管理
数据库是数据记录的集合--数据库管理系统-创建更新以及修改
,数据库系统不仅仅包含数据库本身,而且包含一个完全自定义或“自描述”的数据库架构及其约束
(a complete definition or description of database structure and constrains),
这些定义保存在系统的目录(catalog)之中,
我们把目录中的信息称之为“元数据”(meta-data)
primary database 数据库管理平台会把特定的数据库架构信息,保存在自身的元数据之中
数据抽象”(data abstraction)
程序和数据分离、逻辑构建和物理实现分离,数据库的核心就是这个逻辑构建的过程。它对最终用户隐藏了数据存储和执行的细节
数据架构--存算一体 存算分离 存-缓存-算分离
云数据库的 Serverless 形态,意味着数据库技术在云资源抽象、封装、归一、统一调度能力
计算-日志-存储”三级分离的架构
数据抽象-- 文件系统--数据库系统--对象存储-- 类似与docker 的镜像的数据组织出现
(集成了数据-元数据-数据管理-数据安全-数据)--流通和应用
具备可管控、可计量、可组装三个基本能力
生命周期管理 版本控制 数据加密与解密 访问控制与权限管理 共享访问能力
计算机架构: 单机发展到C/S架构 以及 B/S结构阶段 分布式结构阶段,业务层和数据层都采用分布式 --云架构
数据链接 - 共享访问能力 协作的功能
5. 从“两权”分离到“三权”分置
农村宅基地 的“三权分置”改革,
落实宅基地集体所有权, 保障宅基地农户资格权和农民房屋财产权,适度放活宅基地和农民房屋使用权,
所有权、资格权、使用权
农田 “三权分置”是指农村土地集体所有权、农户承包权、土地经营权“三权”分置并行
所有权、承包权、经营权
企业三权
所有权 控制权 经营权
所有权: 股东和股权结构-股东大会
控制权: 董事会
经营权: 企业的经营权与所有权逐渐分离 决策权 监督权
国有资产交易行为: 转让方 产权交易机构 受让方 国资监管机构 相应资质的中介机构
转让行为批准单位
交易资金包括交易保证金和交易价款 交易凭证
企业研发经费
6.数据存储
文件系统以文件夹和文件的形式组织数据,而块存储则将数据划分为固定大小的块并以块为单位进行存储
象存储采用元数据来描述和管理数 数据组织成对象并采用平面命名空间的方式进行管理
分布式数据--共识协议
有人依赖 Paxos/Raft 这样的共识库来解决 durability 和 linearizability 问题, 线性定序(linearizability)
有人依赖 Kafka/Pulsar 这样的日志队列来解决 durability 和 linearizability 问题
开源的消息队列如 Kafka/Pulsar 等功能追求大而全,代码细节可理解性并不强
Append-Only 的日志模块
提供基础的 Atomicity(原子性)与 Durability(持久性)的保障
确定有限状态机(DFSM,Determinate Finite State Machine)
Raft的横空出世,解决了共识协议工业落地困难的问题
Multi Paxos/Raft/ZAB等传统共识协议耦合了控制与数据平面
Apache ZooKeeper 共识协议ZAB(zookeeper atomic broadcast)
Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper KRaft 使用了Raft共识算法的一种基于事件的变体
百度是在2018年2月初开源了其基于Brpc的Raft 一致性算法和可复制状态机的工业级C++实现,Braft
用正确用好任何一个开源的一致性引擎库,是需要业务长年累月地打磨投入的
共识协议自身也是存在控制与数据平面的,
其中 控制平面负责选主,元数据管理,成员变更,服务容错等复杂能力,
而 数据平面仅仅需要定序以及数据持久化
Apache BookKeeper
使用了Apache ZooKeeper来做控制平面管理,
而自研的 Quorum协议负责高吞吐的写以及低延迟的读
应用开发-借力开发,降低业务系统的复杂性
云原生对象存储 OSS: 解决状态存储问题
Etcd/ZooKeeper等组件 解决状态管理问题 etcd是一个高可用的键值存储系统,常用于分布式系统中的服务发现和配置管理
使用RaaS 解决状态同步问题
架构和数据
实时执行
服务时间 7×24小时技术支持服务的核心,在于其无间断的服务时间
高可用性和稳定性 持续稳定运行的业务场景 更好的在线体验,方便随时访问和使用服务
Web服务以及 实时数据流 金融电商等场景
量产车辆的响应
准实时执行
秒级别的响应
批次执行
周期执行--调度工具
运行和调度逻辑分离
参考
共识协议的技术变迁 -- 既要“高”容错,又要“易”定序,还要“好”理解 https://developer.aliyun.com/article/1309540