搜推广业务
互联网的搜推广业务中,特征服务是什么?需要AI 推理吗?
在互联网搜索推广业务中,特征服务是一种基于用户和业务特征,为实现精准推广而提供的服务。以下是其具体介绍:
- 用户特征分析服务:通过收集和分析用户的各种数据,包括但不限于搜索历史、浏览行为、地理位置、年龄、性别、兴趣爱好等,构建用户画像,以了解用户的需求、偏好和行为模式。例如,一个经常搜索运动装备、关注健身话题的用户,可能会被归类为对运动相关产品感兴趣的人群,推广业务可以针对这类用户推送运动品牌广告、健身课程等相关推广内容。
- 业务特征匹配服务:针对推广的业务或产品,提取其关键特征和属性,如产品的功能、特点、适用场景、目标受众等。然后将这些业务特征与用户特征进行匹配,找到最有可能对该业务感兴趣的用户群体。比如,一款针对年轻时尚群体的电子产品,通过业务特征匹配,就可以精准地向具有相应年龄、兴趣爱好和消费偏好的用户展示推广信息。
在互联网搜索推广业务的特征服务中,AI 推理发挥着重要作用:
- 精准用户画像:AI 可以处理海量的用户数据,通过深度学习和机器学习算法,发现数据中的隐藏模式和关联,更准确地推断出用户的兴趣、需求和意图,从而完善用户画像。例如,通过分析用户的搜索关键词序列、浏览页面的停留时间等细节,AI 能够理解用户更细致的需求,如一个用户先后搜索了 “自驾游路线”“SUV 车型推荐”,AI 可以推理出该用户可能有购买 SUV 用于自驾游的潜在需求,进而为其推送相关的汽车广告和自驾游装备广告。
- 实时动态优化:互联网环境和用户行为是不断变化的,AI 能够实时监测这些变化,并根据新的数据进行推理和调整。比如,当某个热门事件发生时,相关话题的搜索量会突然增加,AI 可以迅速捕捉到这一变化,推理出用户对该事件相关产品或服务的潜在需求,及时调整推广策略,增加对相关关键词的出价,或者推送与该事件相关的推广内容,提高广告的展示率和点击率。
- 智能创意生成:基于对用户特征和业务特征的理解,AI 可以生成更具吸引力和针对性的广告创意和内容。例如,根据用户的语言风格和偏好,生成符合其口味的广告文案;或者根据产品的特点和目标受众,自动设计出更能吸引用户的广告图片或视频。通过 AI 推理,能够使广告创意更好地匹配用户的心理需求,提高广告的效果和转化率。




广告特征服务有什么开源代码?
以下是互联网广告特征服务领域的一些开源代码资源和框架:
1. TensorFlow Recommenders
- 简介:Google 开发的端到端推荐系统框架,支持特征工程、模型训练和部署。
- 代码:GitHub 链接
- 特点:集成了特征交叉、Embedding 生成等广告推荐核心功能。
2. LightGBM
- 简介:微软开发的高效梯度提升框架,广泛用于 CTR 预估。
- 代码:GitHub 链接
- 特点:支持大规模数据处理,内置特征重要性分析工具。
3. DeepCTR
- 简介:基于 TensorFlow 的点击率预测框架,包含多种深度学习模型。
- 代码:GitHub 链接
- 特点:实现了 DeepFM、Wide & Deep 等经典广告模型,支持特征工程。
4. Featuretools
- 简介:自动化特征工程工具,可用于广告用户行为特征提取。
- 代码:GitHub 链接
- 特点:通过深度特征合成技术,自动生成有价值的特征组合。
5. Apache Spark MLlib
- 简介:分布式机器学习库,适合处理大规模广告日志数据。
- 代码:GitHub 链接
- 特点:支持协同过滤、分类算法等多种推荐模型。
6. PaddleRec
- 简介:百度开源的推荐系统工具集,包含特征处理组件。
- 代码:GitHub 链接
- 特点:支持多模型融合,提供工业级推荐解决方案。
7. Scikit-learn
- 简介:经典机器学习库,提供特征提取和转换工具。
- 代码:GitHub 链接
- 特点:实现了 TF-IDF、One-Hot 编码等常用特征工程方法。
8. Dask
- 简介:并行计算库,可扩展处理海量广告特征数据。
- 代码:GitHub 链接
- 特点:与 Pandas 和 Scikit-learn 无缝集成,支持分布式特征计算。
这些开源项目提供了广告特征服务所需的核心功能,包括特征提取、转换、存储和模型训练等。根据具体需求,你可以选择合适的工具组合构建自己的广告特征服务系统。
搜推广中,特征服务和推理服务有什么区别?
在搜索推广系统中,特征服务和推理服务是两个核心组件,它们在功能、技术实现和系统架构中扮演不同角色。以下是两者的主要区别:
1. 核心功能
特征服务(Feature Service) | 推理服务(Inference Service) |
---|---|
负责管理、存储和提供用户、广告、上下文等特征数据 | 基于特征数据执行模型预测(如 CTR/CVR 预估) |
核心任务:特征提取、转换、存储、在线 serving | 核心任务:模型加载、推理计算、结果返回 |
典型场景:特征工程、特征缓存、特征版本控制 | 典型场景:广告排序、出价计算、个性化推荐 |
2. 技术架构
-
特征服务:
- 数据来源:用户行为日志、业务数据库、外部数据(如地理位置)
- 技术栈:
- 离线:Spark/Hadoop(批处理特征)、Flink(实时特征)
- 在线:Redis(特征缓存)、HBase/ClickHouse(特征存储)
- 框架:Feast、Tencent Cloud FeatureStore
- 挑战:高并发读取、实时特征更新、特征一致性
-
推理服务:
- 输入:特征向量(来自特征服务)
- 技术栈:
- 模型框架:TensorFlow、PyTorch、LightGBM
- 推理引擎:TensorRT(高性能推理)、TorchServe
- 部署方案:Docker/Kubernetes(容器化部署)
- 挑战:低延迟响应、模型弹性扩缩容、AB 测试支持
3. 性能需求
-
特征服务:
- QPS:通常较高(数万至百万级),需支持广告请求的高并发查询
- 延迟:关键路径延迟需控制在 10ms 以内(如 Redis 缓存查询)
- 数据量:PB 级特征存储,需支持增量更新
-
推理服务:
- QPS:依赖于广告系统流量,通常低于特征服务
- 延迟:单次推理延迟需控制在 5-20ms(视模型复杂度而定)
- 计算资源:依赖模型规模(如千亿参数大模型需 GPU 集群)
4. 数据流程
graph TD
A[用户查询] --> B[特征服务]
B --> C{特征是否缓存?}
C -->|是| D[返回缓存特征]
C -->|否| E[实时计算特征]
D --> F[推理服务]
E --> F
F --> G[模型预测CTR/CVR]
G --> H[广告排序与出价]
是
否
用户查询
特征服务
特征是否缓存?
返回缓存特征
实时计算特征
推理服务
模型预测CTR/CVR
广告排序与出价
5. 典型开源工具
-
特征服务:
- Feast:开源特征存储与服务框架
- Tencent Cloud FeatureStore:工业级特征平台
- Redis:特征缓存层
-
推理服务:
- TensorFlow Serving:TensorFlow 模型部署工具
- TorchServe:PyTorch 模型推理服务
- KServe:Kubernetes 原生推理服务框架
6. 应用场景
-
特征服务:
- 用户画像特征(年龄、性别、兴趣标签)
- 广告主特征(历史转化率、预算)
- 上下文特征(查询关键词、设备信息)
-
推理服务:
- 点击率预估(CTR)
- 转化率预估(CVR)
- 多目标排序(如兼顾收入和用户体验)
总结对比表
维度 | 特征服务 | 推理服务 |
---|---|---|
核心价值 | 提供高质量、一致的特征数据 | 执行模型预测,生成业务决策 |
技术挑战 | 高并发、低延迟、特征一致性 | 高性能推理、模型版本管理 |
衡量指标 | 特征覆盖率、查询延迟、QPS | 预测准确率、推理延迟、吞吐量 |
演进方向 | 实时特征计算、特征联邦学习 | 大模型推理优化、多模态融合 |
在实际系统中,两者通常协同工作:特征服务为推理服务提供输入,推理服务基于特征执行预测,共同支撑搜索推广的精准性和高效性。
检索,粗排,精排 跟特征服务,用户画像和推理服务有什么关系?
在搜索推广系统中,检索(召回)、粗排、精排是广告排序的核心流程,而特征服务、用户画像、推理服务则是支撑这一流程的底层技术组件。它们之间的关系可以用以下逻辑链解释:
一、整体架构关系
graph LR
A[用户查询] --> B[检索/召回]
B --> C[粗排]
C --> D[精排]
D --> E[广告展示]
subgraph "支撑组件"
F[特征服务] --> B
F --> C
F --> D
G[用户画像] --> F
H[推理服务] --> C
H[推理服务] --> D
end
支撑组件
用户查询
检索/召回
粗排
精排
广告展示
特征服务
用户画像
推理服务
二、各组件核心功能
1. 检索 / 召回(Retrieval)
- 目标:从百万级候选广告中快速筛选出数千个相关广告
- 依赖:
- 特征服务:提供查询关键词特征、广告文本特征
- 用户画像:提供用户兴趣标签(如 "数码产品"、"户外运动")
- 推理服务:简单模型(如双塔模型)快速计算相关性得分
2. 粗排(Ranking 1)
- 目标:从数千个候选中筛选出数百个高相关性广告
- 依赖:
- 特征服务:实时特征(如广告历史 CTR、用户实时行为)
- 推理服务:轻量级模型(如 LightGBM)快速排序
- 用户画像:基础属性(年龄、性别)辅助排序
3. 精排(Ranking 2)
- 目标:对数百个候选广告进行精准排序
- 依赖:
- 特征服务:深度特征(如用户与广告的交互历史、上下文特征)
- 推理服务:复杂模型(如 DeepFM、多目标模型)
- 用户画像:深度兴趣向量(如用户对手机品牌的偏好程度)
三、特征服务的关键作用
特征服务为三个阶段提供不同粒度的特征:
阶段 | 特征类型 | 特征来源 | 性能要求 |
---|---|---|---|
检索 | 稀疏特征(如关键词 ID、类别) | HBase/ES 索引 | 低延迟(<5ms) |
粗排 | 统计特征(如 CTR 均值、出价) | Redis 缓存 | 中延迟(<10ms) |
精排 | 深度交叉特征(如用户 - 广告交互) | 实时计算引擎(Flink) | 高吞吐量(支持复杂特征) |
四、用户画像的应用场景
- 检索阶段:通过兴趣标签快速过滤不相关广告
- 例:用户画像中 "手机" 兴趣度高 → 优先召回手机类广告
- 粗排阶段:基于用户画像分桶,使用不同排序策略
- 例:新用户侧重热门广告,老用户侧重个性化推荐
- 精排阶段:作为重要特征输入模型
- 例:用户历史购买金额 → 预测广告转化率
五、推理服务的差异化需求
阶段 | 模型复杂度 | 推理延迟要求 | 典型模型 |
---|---|---|---|
检索 | 轻量级 | <5ms | 双塔模型(DSSM) |
粗排 | 中等 | <10ms | LightGBM/XGBoost |
精排 | 复杂 | <20ms | DeepFM、ESMM、MMOE |
六、数据流向示例
sequenceDiagram
participant 用户
participant 检索系统
participant 特征服务
participant 用户画像
participant 推理服务
participant 粗排系统
participant 精排系统
用户->>检索系统: 搜索"笔记本电脑"
检索系统->>特征服务: 请求关键词特征
检索系统->>用户画像: 请求兴趣标签
检索系统->>推理服务: 请求相关性预测
推理服务->>检索系统: 返回候选广告ID列表
检索系统->>粗排系统: 传递候选广告ID(约1000个)
粗排系统->>特征服务: 请求广告CTR、出价等特征
粗排系统->>推理服务: 请求粗排分数
推理服务->>粗排系统: 返回粗排分数
粗排系统->>精排系统: 传递候选广告ID(约100个)
精排系统->>特征服务: 请求深度交互特征
精排系统->>推理服务: 请求精排分数
推理服务->>精排系统: 返回精排分数
精排系统->>用户: 展示Top N广告
精排系统粗排系统推理服务用户画像特征服务检索系统用户精排系统粗排系统推理服务用户画像特征服务检索系统用户搜索"笔记本电脑"请求关键词特征请求兴趣标签请求相关性预测返回候选广告ID列表传递候选广告ID(约1000个)请求广告CTR、出价等特征请求粗排分数返回粗排分数传递候选广告ID(约100个)请求深度交互特征请求精排分数返回精排分数展示Top N广告
七、优化方向
-
特征服务:
- 实时特征计算(如用户最近点击序列)
- 特征压缩(降低存储成本)
- 特征重要性分析(减少冗余特征)
-
用户画像:
- 多模态画像(结合文本、图像、视频)
- 动态画像更新(秒级响应行为变化)
- 隐私计算(联邦学习保护用户数据)
-
推理服务:
- 模型量化(降低计算成本)
- 模型并行(支持超大模型推理)
- 弹性伸缩(应对流量波动)
总结
检索、粗排、精排是广告系统的业务流程,而特征服务、用户画像、推理服务是支撑这一流程的技术底座。三者通过以下方式协同:
- 特征服务提供基础数据,连接用户画像与排序流程
- 用户画像为特征服务提供核心特征维度
- 推理服务基于特征执行决策,驱动各阶段排序逻辑
这种分层架构设计使得系统能够在 ** 效率(检索 / 粗排)与精度(精排)** 之间取得平衡,同时通过特征复用和模型优化降低整体成本。
召回,检索,粗排,精排 跟特征服务,用户画像,用户服务,物料服务,物料服务,人群检索和推理服务有什么关系?
在搜索推广系统中,召回、检索、粗排、精排是广告排序的核心流程,而特征服务、用户画像、用户服务、物料服务、人群检索和推理服务是支撑这一流程的底层组件。它们之间的关系可以用以下架构图和数据流解释:
一、整体架构关系
graph LR
A[用户请求] --> B[用户服务]
B --> C[人群检索]
C --> D[召回/检索]
D --> E[粗排]
E --> F[精排]
F --> G[广告展示]
subgraph "数据支撑层"
H[用户画像] --> B
I[物料服务] --> D
J[特征服务] --> D
J --> E
J --> F
K[推理服务] --> E
K --> F
end
数据支撑层
用户请求
用户服务
人群检索
召回/检索
粗排
精排
广告展示
用户画像
物料服务
特征服务
推理服务
二、各组件核心功能
1. 用户服务(User Service)
- 功能:管理用户会话、权限验证、请求路由
- 依赖:
- 用户画像:获取用户基础信息(ID、设备、登录状态)
- 特征服务:获取用户实时特征(如当前会话时长)
2. 人群检索(Audience Retrieval)
- 功能:基于用户标签快速筛选目标人群
- 依赖:
- 用户画像:用户分群标签(如新用户、高价值用户)
- 特征服务:静态人群特征(如地域、年龄段)
3. 召回 / 检索(Retrieval)
- 功能:从百万级候选广告中快速筛选出数千个相关广告
- 依赖:
- 物料服务:广告文本、图片、标签等信息
- 用户画像:用户兴趣向量(如 "3C 数码" 兴趣度)
- 特征服务:查询关键词特征、广告 ID 特征
- 推理服务:简单模型计算相关性得分(如双塔模型)
4. 粗排(Ranking 1)
- 功能:从数千个候选中筛选出数百个高相关性广告
- 依赖:
- 特征服务:广告历史 CTR、出价、预算等统计特征
- 推理服务:轻量级模型(如 LightGBM)快速排序
- 物料服务:广告质量分(如创意质量、落地页体验)
5. 精排(Ranking 2)
- 功能:对数百个候选广告进行精准排序
- 依赖:
- 特征服务:深度交叉特征(如用户 - 广告历史交互)
- 推理服务:复杂模型(如 DeepFM、多目标模型)
- 物料服务:广告多模态特征(如图片清晰度、视频完播率)
三、数据流向与协作流程
sequenceDiagram
participant 用户
participant 用户服务
participant 人群检索
participant 召回系统
participant 特征服务
participant 用户画像
participant 物料服务
participant 推理服务
participant 粗排系统
participant 精排系统
用户->>用户服务: 搜索请求
用户服务->>用户画像: 获取用户基础信息
用户服务->>人群检索: 查询目标人群标签
人群检索->>召回系统: 返回人群ID列表
召回系统->>物料服务: 请求候选广告物料
召回系统->>特征服务: 请求查询关键词特征
召回系统->>推理服务: 请求相关性分数
推理服务->>召回系统: 返回候选广告ID列表(约1000个)
召回系统->>粗排系统: 传递候选广告ID
粗排系统->>特征服务: 请求广告统计特征
粗排系统->>推理服务: 请求粗排分数
推理服务->>粗排系统: 返回粗排分数
粗排系统->>精排系统: 传递候选广告ID(约100个)
精排系统->>特征服务: 请求深度交互特征
精排系统->>物料服务: 请求广告多模态特征
精排系统->>推理服务: 请求精排分数
推理服务->>精排系统: 返回精排分数
精排系统->>用户: 展示Top N广告
精排系统粗排系统推理服务物料服务用户画像特征服务召回系统人群检索用户服务用户精排系统粗排系统推理服务物料服务用户画像特征服务召回系统人群检索用户服务用户搜索请求获取用户基础信息查询目标人群标签返回人群ID列表请求候选广告物料请求查询关键词特征请求相关性分数返回候选广告ID列表(约1000个)传递候选广告ID请求广告统计特征请求粗排分数返回粗排分数传递候选广告ID(约100个)请求深度交互特征请求广告多模态特征请求精排分数返回精排分数展示Top N广告
四、关键组件的具体作用
1. 特征服务(Feature Service)
- 召回阶段:提供稀疏特征(如关键词 ID、广告类别)
- 粗排阶段:提供统计特征(如广告历史 CTR、出价)
- 精排阶段:提供深度交叉特征(如用户 - 广告点击序列)
2. 用户画像(User Profile)
- 人群检索:作为分群依据(如 "30-35 岁高消费男性")
- 召回:兴趣标签过滤(如用户对 "游戏" 兴趣度高 → 召回游戏广告)
- 粗排 / 精排:作为模型输入特征(如用户历史转化率)
3. 物料服务(Material Service)
- 召回:提供广告基础信息(如标题、类目)
- 粗排:提供广告质量指标(如创意评分)
- 精排:提供多模态特征(如图像特征向量、视频特征)
4. 推理服务(Inference Service)
- 召回:轻量级模型快速计算相关性(如 DSSM)
- 粗排:中等复杂度模型排序(如 LightGBM)
- 精排:复杂多目标模型(如 ESMM、MMOE)
五、性能与资源分配
阶段 | 候选集规模 | 处理时间目标 | 主要资源消耗 |
---|---|---|---|
召回 | 百万 → 千 | <5ms | 检索系统、特征缓存 |
粗排 | 千 → 百 | <10ms | 推理服务(CPU) |
精排 | 百 → 十 | <20ms | 推理服务(GPU/CPU) |
六、优化方向
-
特征服务:
- 实时特征计算(如用户实时点击率)
- 特征压缩(降低存储成本)
- 特征重要性分析(减少冗余特征)
-
物料服务:
- 多模态特征提取(如图像 / 视频理解)
- 物料质量自动化评估
- 物料预计算(提前生成特征向量)
-
推理服务:
- 模型量化(降低计算成本)
- 模型并行(支持超大模型推理)
- 弹性伸缩(应对流量波动)
总结
召回、检索、粗排、精排构成广告排序的核心流程,而特征服务、用户画像、用户服务、物料服务、人群检索和推理服务是支撑这一流程的基础设施。它们通过以下方式协同:
- 用户服务和人群检索完成用户身份验证和初步分群
- 召回 / 检索基于用户画像和物料信息快速筛选候选广告
- 粗排 / 精排利用特征服务和推理服务进行精准排序
- 物料服务提供广告的多元特征,增强排序准确性
这种分层架构设计使得系统能够在 ** 效率(召回 / 粗排)与精度(精排)** 之间取得平衡,同时通过组件复用和优化降低整体成本。
召回,检索,粗排,精排 跟特征服务,用户画像,用户服务,物料服务,物料服务,人群检索和推理服务以及实时大数据服务,离线大数据服务有什么关系?
在搜索推广系统中,召回、检索、粗排、精排作为核心流程,与特征服务、用户画像等组件共同构成了广告系统的技术架构。而实时大数据服务和离线大数据服务则是支撑整个系统的数据基础设施,它们的关系可以用以下架构图和数据流解释:
一、整体架构关系
graph LR
A[用户请求] --> B[用户服务]
B --> C[人群检索]
C --> D[召回/检索]
D --> E[粗排]
E --> F[精排]
F --> G[广告展示]
subgraph "数据支撑层"
H[用户画像] --> B
I[物料服务] --> D
J[特征服务] --> D
J --> E
J --> F
K[推理服务] --> E
K[推理服务] --> F
L[实时大数据服务] --> J
L --> H
M[离线大数据服务] --> J
M --> H
M --> K
end
数据支撑层
用户请求
用户服务
人群检索
召回/检索
粗排
精排
广告展示
用户画像
物料服务
特征服务
推理服务
实时大数据服务
离线大数据服务
二、各组件核心功能
1. 实时大数据服务
- 功能:处理实时数据流,生成实时特征和指标
- 技术栈:Flink、Kafka、Redis
- 输出:
- 实时用户行为特征(如最近点击序列)
- 实时广告表现(如当前 CTR、曝光量)
- 异常检测(如突发流量预警)
2. 离线大数据服务
- 功能:处理批量数据,支持模型训练和报表分析
- 技术栈:Spark、Hadoop、Hive
- 输出:
- 用户长期画像(如兴趣分布)
- 广告历史表现(如 7 天转化率)
- 模型训练数据(如历史点击日志)
三、数据流向与协作流程
sequenceDiagram
participant 用户
participant 用户服务
participant 人群检索
participant 召回系统
participant 特征服务
participant 用户画像
participant 物料服务
participant 推理服务
participant 粗排系统
participant 精排系统
participant 实时大数据
participant 离线大数据
用户->>用户服务: 搜索请求
用户服务->>用户画像: 获取用户基础信息
用户服务->>人群检索: 查询目标人群标签
实时大数据->>用户画像: 更新实时行为特征
离线大数据->>用户画像: 更新长期兴趣标签
召回系统->>物料服务: 请求候选广告物料
召回系统->>特征服务: 请求查询关键词特征
召回系统->>推理服务: 请求相关性分数
实时大数据->>特征服务: 推送实时特征(如当前会话点击)
离线大数据->>特征服务: 推送统计特征(如历史CTR)
离线大数据->>推理服务: 提供模型训练数据
推理服务->>召回系统: 返回候选广告ID列表
召回系统->>粗排系统: 传递候选广告ID
粗排系统->>特征服务: 请求广告统计特征
粗排系统->>推理服务: 请求粗排分数
粗排系统->>精排系统: 传递候选广告ID
精排系统->>特征服务: 请求深度交互特征
精排系统->>推理服务: 请求精排分数
推理服务->>精排系统: 返回精排分数
精排系统->>用户: 展示Top N广告
离线大数据实时大数据精排系统粗排系统推理服务物料服务用户画像特征服务召回系统人群检索用户服务用户离线大数据实时大数据精排系统粗排系统推理服务物料服务用户画像特征服务召回系统人群检索用户服务用户搜索请求获取用户基础信息查询目标人群标签更新实时行为特征更新长期兴趣标签请求候选广告物料请求查询关键词特征请求相关性分数推送实时特征(如当前会话点击)推送统计特征(如历史CTR)提供模型训练数据返回候选广告ID列表传递候选广告ID请求广告统计特征请求粗排分数传递候选广告ID请求深度交互特征请求精排分数返回精排分数展示Top N广告
四、实时与离线服务的具体作用
1. 对特征服务的支持
服务类型 | 特征类型 | 更新频率 | 技术实现 |
---|---|---|---|
实时大数据 | 用户实时行为(如当前会话点击) | 秒级 | Flink 计算 + Redis 存储 |
离线大数据 | 广告历史统计(如 7 天平均 CTR) | 天级 | Spark 批处理 + HBase 存储 |
2. 对用户画像的支持
服务类型 | 画像维度 | 数据来源 | 应用场景 |
---|---|---|---|
实时大数据 | 动态兴趣(如当前浏览品类) | 实时点击流 | 召回阶段快速筛选广告 |
离线大数据 | 长期偏好(如 30 天内购买品类) | 历史订单、评论 | 精排阶段个性化排序 |
3. 对推理服务的支持
服务类型 | 支持环节 | 具体作用 | 技术方案 |
---|---|---|---|
实时大数据 | 模型在线预测 | 提供实时特征输入 | 特征实时计算 + 推理服务 |
离线大数据 | 模型训练与评估 | 生成训练数据、评估模型效果 | 特征工程 + 分布式训练 |
五、性能与资源分配
服务类型 | 数据量 | 处理延迟 | 典型技术栈 |
---|---|---|---|
实时大数据 | TB 级 / 天 | 秒级 | Flink、Kafka、Redis |
离线大数据 | PB 级 / 月 | 小时级 | Spark、Hive、HDFS |
六、优化方向
-
实时大数据服务:
- 流式特征计算优化(如增量计算)
- 实时特征缓存(减少重复计算)
- 异常流量熔断机制
-
离线大数据服务:
- 特征预计算(提前生成常用特征)
- 分布式训练优化(如数据并行)
- 模型自动调优(如 Hyperopt)
-
协同优化:
- 实时与离线特征一致性保障
- 冷热数据分层存储
- 离线模型在线蒸馏(将复杂模型知识迁移到轻量级模型)
总结
实时大数据服务和离线大数据服务是广告系统的数据引擎,它们通过以下方式支撑核心流程:
- 实时服务提供秒级数据处理能力,支撑用户实时行为感知和快速响应
- 离线服务提供海量数据处理能力,支撑长期画像构建和模型迭代优化
- 两者共同为特征服务、用户画像和推理服务提供数据输入,进而影响召回、粗排、精排的准确性和效率
这种架构设计使得广告系统能够在实时性与准确性之间取得平衡,同时通过分层处理降低整体系统复杂度和成本。