搜推电商大模型及应用实践-上篇
引言
大模型对搜推技术产生了深远的影响,极大地推动了搜推技术的演进趋势,使得搜推更加的智能化和个性化,然而在搜推中引入大模型时同样面临一系列的挑战,例如商品知识的幻觉,复杂查询的理解,个性化商品推荐,隐私和安全等问题。本文基于这个问题背景介绍下我们的技术实践,完整文章分为上下两篇介绍:
本文为上篇。
1.电商行业的发展和技术演进
1.1 电商行业发展
过去十年,实物商品网上零售额实现了高速增长,电商模式也经历了显著的演变。从以货架电商为主的传统模式,发展到如今货架电商与内容电商并存的多元格局,这一变化不仅反映了市场需求的多样化,也展示了技术进步对零售行业的深远影响。

货架电商,如阿里巴巴、京东和拼多多等平台,通过建立庞大的商品数据库和高效的物流体系,为消费者提供了便捷的购物体验。这些平台依托强大的技术基础,优化了供应链管理,降低了商品流通成本,使得消费者能够以更低的价格购买到更丰富的商品。
与此同时,内容电商如抖音、快手和小红书等平台的崛起,标志着电商模式的进一步创新。这些平台通过短视频、直播等内容形式,将商品展示与娱乐体验相结合,吸引了大量用户的关注。内容电商不仅丰富了消费者的购物体验,还通过社交互动和用户生成内容,增强了用户粘性和购买欲望。
本质上,无论是货架电商还是内容电商,都是通过技术驱动,大幅降低了商品流通成本,显著提升了零售效率。可以说,电商模式的发展变化,是技术演进的直接结果。未来,随着技术的不断进步,电商模式将继续创新,进一步满足消费者多样化、个性化的需求。
1.2 电商场景问题分析
从电商用户的消费决策链出发,用户从需求的产生到最终决策下单,可以拆解为购前、购中、购后这三个阶段。在这一链条中,不同类型的平台扮演着不同的角色,各自发挥着独特的功能。

首先,以抖音、快手和小红书等为代表的内容分发平台,作为当前的新兴内容电商平台,主要处于消费链路的上游阶段。在购前阶段,这些平台通过丰富多样的短视频、直播和用户生成内容,激发用户的购物需求。内容电商平台通过生动的商品展示和互动性强的内容,能够有效地吸引用户的注意力,促进潜在需求的产生和转化。用户在这些平台上获取灵感、发现新产品,并逐渐形成购买意向。
而以阿里巴巴、京东和拼多多为代表的商品分发平台,作为当前的货架电商平台,主要处于消费链路的中下游阶段。在购中阶段,这些平台承担着用户需求与商品供给的高效匹配任务。当用户在内容平台上产生购买需求后,他们通常会转向这些电商平台进行搜索,以寻找具体的商品并进行比价和决策。电商平台通过庞大的商品库、精准的推荐算法和高效的物流服务,确保用户能够快速找到所需商品并顺利完成购买。
在消费决策链路中,用户购买需求产生后的搜索环节是决策的关键。电商搜索的核心在于基于用户需求的商品分发,其主要目标是提升商品分发效率,优化的关键指标是GMV(商品交易总额)和UCVR(用户转化率)。与一般的信息搜索(如百度)不同,电商搜索不仅要提供相关性高的搜索结果,还需要考虑商品的库存、价格、物流等多方面因素,确保用户能够获得最佳的购物体验。
1.3 关键问题和技术挑战
作为国内领先的电商平台,京东在移动端APP,小程序以及PC端等多种产品形态中,为用户提供了全方位的购物体验。京东的宏观目标是实现更低的成本、更高的效率以及更好的用户体验。然而,在实现这些宏观目标的过程中,京东面临着一系列关键问题和技术挑战。

这种多样化的产品形态要求平台在各个终端上提供一致且优质的用户体验。同时不同终端的用户行为和需求也存在差异,这就需要平台在设计和优化用户界面、功能以及交互体验时,充分考虑各终端的特点和用户习惯。
宏观目标可以总结为:更低的成本、更高的效率和更好的体验。
在实现宏观目标的过程中,我们需要解决的关键问题可以归结为GMV(商品交易总额)的问题。GMV可以通过通过公式描述为:GMV = UV(独立访客数) * UCVR(用户转化率) * 客单价
在解决上述关键问题时,京东面临着多项技术挑战,这些技术挑战包括但不限于以下四个方面:
1.4 技术演进洞察
电商行业的快速发展离不开技术的不断创新。技术的演进不仅是为了追求技术本身的突破,更是为了实现更低的成本、更高的效率和更好的用户体验。本节将探讨电商搜索技术的演进历程,从文本检索阶段到当前正在经历的大模型阶段,以及未来的AGI导购助手。

文本检索阶段
在电商搜索技术的初期,主要依赖于基础的文本检索技术和规则引擎。这个阶段的核心在于通过关键词匹配实现用户与商品的连接。
机器学习阶段
随着数据量的增加和计算能力的提升,电商搜索技术进入了机器学习阶段。这一阶段的核心是通过统计NLP和机器学习模型,提升用户意图理解和商品匹配的准确性。
深度学习阶段
深度学习的兴起,带来了电商搜索技术的又一次飞跃。通过深度神经网络(DNN),电商平台能够更为精准地理解用户意图和商品信息,并实现多模态的搜索交互。
大模型阶段
当前电商搜索技术正在经历大模型阶段。基于大模型的技术,不仅提升了用户理解和商品理解的深度,还实现了更加智能的交互方式。
AGI导购助手阶段
展望未来,电商搜索技术将进入AGI导购助手阶段。这个阶段的核心是通过完全的AGI技术驱动,实现多模态交互和AI Agent式购物服务。
2.大模型电商场景下的问题
2.1 大模型的技术优势
近年来,随着人工智能技术的迅猛发展,大模型在各个领域展现出了卓越的技术优势。大模型不仅在语言理解和生成方面表现出色,还在知识总结、迁移学习、逻辑推理以及多语言多模态建模等方面展现出了强大的能力。以下将详细阐述大模型的五大技术优势。

大模型的一个显著优势在于其强大的语言理解和生成能力。大模型能够准确地理解复杂的语言结构和语义关系,从而实现高质量的文本生成,以及指令遵循能力。这种能力不仅体现在自然语言处理(NLP)任务中,还在搜索和推荐,对话系统和内容创作中得到了广泛应用。
大模型具备广泛的知识总结和归纳能力,能够从海量数据中提取和整合信息,形成系统的知识体系。这种能力使得大模型在处理复杂问题时,能够提供全面而准确的解答。
大模型在迁移学习和多任务处理方面表现出色。通过迁移学习,大模型可以将从一个任务中学到的知识和技能应用到其他相关任务中,显著提高了模型的泛化能力和适应性。此外,大模型可以基于一个统一模型底座实现多任务学习,这种能力在实际应用中具有重要意义。
大模型不仅在数据处理和语言生成方面表现出色,还具备一定的逻辑推理和分析能力。通过复杂的模型结构和训练算法,大模型能够对输入信息进行深度分析和推理,得出合理的结论。这种能力使得大模型在解决复杂问题和做出决策时,能够提供有力的支持。
大模型的多语言多模态建模能力,使其在处理多语言和多模态数据时表现出色。大模型可以同时处理文本、语音、图像等多种数据形式,实现跨模态的信息整合和理解。此外,大模型还支持多语言处理,能够在不同语言之间进行无缝转换和理解。这种能力在全球化的背景下具有重要意义。
2.2 电商场景下的应用问题
随着大模型技术的不断进步,其在电商行业的应用也日益广泛。然而,尽管大模型在许多方面展现了强大的潜力,电商场景下的实际应用仍面临诸多挑战。本节将深入探讨电商场景下大模型应用的五大主要问题:电商知识理解、效果和个性化、时效性、成本和速度以及安全性。

电商知识理解
在电商场景中,商品知识的专业性和精确度至关重要。然而,通用大模型在这方面表现出了一些不足。
效果和个性化
在电商平台上,个性化推荐和精准营销是提升用户体验和促进销售的关键。然而,直接应用大模型并未展现出绝对的效果优势。
时效性
电商行业的动态性和时效性要求极高,而大模型在这方面存在明显的不足。
成本和速度
大模型的训练和推理成本高昂,给电商平台带来了巨大的经济压力。
安全性
在电商场景中,用户数据的安全性和生成内容的合规性至关重要。
2.3 电商大模型解决方案
基于上述问题分析和大模型优劣势,结合我们京东的业务场景我们提出了一整套基于大模型的AIGC架构:

后面章节讲分别介绍整个AIGC框架的关键技术
3.电商大模型关键技术
3.1 数据和预训练
在大模型的预训练过程中,数据预处理是至关重要的一环。特别是在电商领域,数据源的多样性和复杂性决定了预处理的质量直接影响到模型的最终效果。
数据预处理
核心去除站外和站内商品相关数据中的噪音,提升专有数据的电商知识密度,整体流程如下图:

预训练数据处理的核心目标是提升电商知识密度,为了提升大模型在电商领域的专业性和准确性,预处理的核心目标是去除数据中的噪音,确保数据的高质量和高相关性。这不仅有助于模型更好地理解商品类目、品牌和属性,还能提高模型在实际应用中的表现。
数据预处理的核心流程包括以下几个步骤:
Continue Pretraining 启发于人类学习总是在前人积累的知识和经验上进一步学习,我们提出了一种基于知识继承的增量学习方法来持续学习,在数据上通过提升知识密度和配比调整,通过模型结构优化,退火学习,多阶段指令对齐优化,增强安全治理对齐等方法提升我们电商大模型的性能表现。

我们的增量学习框架支持基于华为NPU集群,利用其强大的计算能力和并行处理优势,实现高效训练。
采用支持100B参数规模的底座大模型,并结合MOE(Mixture of Experts)架构,进一步提升模型的表达能力和计算效率。MOE架构通过动态选择专家网络,显著提高了模型的参数利用率和推理效率,使其在处理复杂任务时表现更加出色。
为进一步提升模型的性能和适应性,我们引入了Depth Up-Scaling和MOE的参数扩展技术。Depth Up-Scaling通过增加模型的深度,增强其对复杂模式的捕捉能力;MOE扩展则通过增加专家网络的数量和多样性,提高模型的泛化能力和鲁棒性。
在处理长上下文数据时,我们通过增加长上下文数据的配比,并优化分块缓存工程架构,显著提升了模型在长序列任务中的表现。
为了实现持续预训练,我们采用了Cosine Learning Rate Scheduler和退火学习策略,并结合数据配比调整,确保模型在训练过程中能够逐步适应新的数据和任务。退火学习则通过逐步降低学习率,避免模型陷入局部最优解,提升模型的整体性能。
3.2 通用对齐和领域对齐
对齐学习不仅可以提升模型在通用任务中的表现,还能够在特定领域(如电商)中增强其专业性和准确性。通用对齐学习旨在优化模型对通用指令的遵循能力,使其在广泛的任务中表现出色。同时,电商领域对齐学习则专注于增强模型在电商场景中的专业性。

在SFT阶段,模型通过监督学习进行微调。对于通用对齐,训练数据涵盖各种通用任务和指令,确保模型具备广泛的应用能力。对于电商领域对齐,训练数据则包括大量电商相关的任务和指令,核心是数据多样性和准确率。
在DPO阶段,模型通过直接偏好优化进行进一步调整。此阶段的目标是提升模型在特定任务中的表现,基于用户反馈或专家的直接反馈进行优化。对于通用对齐,DPO阶段通过收集用户对模型输出的偏好反馈,调整模型参数,使其更符合用户期望。对于电商领域对齐,DPO阶段则通过分析用户在电商平台上的行为和反馈,优化模型在商品推荐和客户服务等方面的表现。
PPO阶段采用近端策略优化方法,通过强化学习进一步提升模型的对齐能力。此阶段通过模拟真实环境中的任务和指令执行过程,模型在不断试错和优化中学习最佳策略。对于通用对齐,PPO阶段使模型能够在动态和复杂的环境中表现出色,具备更强的适应能力。对于电商领域对齐,PPO阶段则通过电商场景中的各种任务中用户行为反馈使模型能够在实际应用中表现更好。
在实践中,也可以利用KTO对齐来替代DPO/PPO。
3.3 安全性
随着大模型在各类应用中的广泛部署,其安全性问题日益受到关注。大模型安全性可以从潜在安全事件发生前后进行划分,分别为被动安全和主动安全。这两种策略共同构建了一个全面的安全防护体系,确保大模型的生成内容在各个方面都是安全和可控的,我们设计了一套完整的大模型安全体系:

被动安全:安全检测服务
被动安全侧重于安全检测服务,从检测方向入手,确保用户输入的提示词(prompt)和大模型生成的内容在发布前经过严格的安全审查。具体措施包括:
通过这些检测服务,可以在潜在安全事件发生前及时发现和处理问题,降低风险。
主动安全:大模型生成安全性
主动安全则从生成方向着手,确保大模型在任何输入情况下都能生成安全可控的回复内容。主要技术手段包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。
主动安全策略不仅在大模型生成内容的过程中进行实时控制,还通过持续学习和优化,不断提升模型的安全性和可靠性。
被动安全的方法核心是检测,主要方法包括:
主动安全算法核心是两种思路
3.4 评估体系
电商大模型的评估体系至关重要。为了确保模型在实际应用中的高效性和可靠性,我们构建了一套综合性的电商大模型评估体系。该体系涵盖了通用Benchmark、电商Benchmark以及安全性评分等多个维度,力求全面、客观地评估模型性能。

通用Benchmark评估
通用Benchmark评估是衡量大模型在各种标准任务上的表现。我们采用了一系列主流Benchmark,包括以下但不局限:
这些Benchmark涵盖了从语言理解到数学推理的多种任务,确保模型在广泛应用中的通用性和鲁棒性。
电商Benchmark评估
为了更好地服务于电商应用,我们专门构建了电商Benchmark。该Benchmark与电商应用任务高度对齐,评估模型在电商场景中的具体表现。评估方法包括自动评估和人工评估:
通过电商Benchmark,我们可以深入了解模型在电商领域的实际应用效果,并进行针对性优化。
安全性评估
安全性是大模型评估中的重要一环。我们通过以下指标进行安全性评分:
安全性score计算公式为:Score =安全回复数量/总回复数量或总prompt数量
此外,我们还关注错误拒答率(FRR),即大模型误判良性提问场合的概率。
浙公网安备 33010602011771号