开源与AI技术民主化：打破垄断的未来

关键要点

开源倡议在民主化人工智能技术方面至关重要，它提供了透明、可扩展的工具，赋能用户。
开源社区迅速将新研究成果转化为实用的人工智能工具，使其更强大、更有用。
在开发过程中提炼大语言模型，能够创建出准确、快速且私密的、针对特定任务的模型，从而减少对通用API的依赖。
有效的法规应区分面向人类的AI应用与底层面向机器的组件，在解决数据隐私、安全和公平获取等问题的同时，确保创新活力。

这是对Ines Montani在2024年4月QCon伦敦大会上的演讲的总结。大语言模型极大地改变了人工智能领域。促成这一变革的根本创新出人意料地简单：让模型变得大得多。随着每次迭代，这些模型的能力都在扩展，这引出了一个关键问题：我们是否正在走向一个由少数技术垄断企业控制、隐藏在API和专有系统背后的“黑箱”时代？

开源的反击

与这种担忧相反，开源软件正在颠覆AI领域的垄断控制观念。开源倡议确保了没有任何单一实体能够主导人工智能格局。开源软件具有众多优势，使其对个人和公司都具有吸引力：

透明：开源软件是透明的，允许您确切地看到您获得的是什么。
无锁定：您不会被锁定在特定的供应商那里。虽然存在一定的使用惯性，但您永远不会失去访问权限。
可内部运行：开源软件可以在内部运行，如果您处理的是私人数据且不希望将其发送到外部服务器，这一点至关重要。
经过社区审查：社区审查意味着您可以看到什么是流行的，谁在使用什么，从而确保了一定程度的信任和可靠性。
保持最新：开源项目通常保持最新状态，通过拉取请求和社区贡献整合了最新的研究成果。
可编程：该软件具有很强的可编程性，很少需要端到端的解决方案，可以轻松集成到现有流程中。
易于上手：开源软件易于开始使用，您只需使用诸如pip install之类的命令即可下载并开始使用。
可扩展：该软件是可扩展的，如果需要，您可以对其进行分叉并自行运行。

开源的经济性

关于开源软件的一个常见误解是，公司选择它主要是因为它是免费的。虽然许多开源项目可以免费获取，但其真正的价值在于其可访问性和所提供的自由。虽然成本因素有助于初始采用，但有许多令人信服的理由推动了开源解决方案的主导地位。

人工智能和机器学习领域的开源不仅仅是软件，更是代码与数据的协同作用。不断增长的开源模型生态系统涵盖了从代码到数据再到权重的所有内容，使强大的工具得以广泛使用。为了澄清这一格局，我们将这些模型分为三种类型：

任务特定模型：这些是为特定任务设计的专用模型。例如，随spaCy及其社区项目分发的模型、斯坦福大学Stanza库的模型，以及某中心等平台上的众多模型。这些模型通常体积小、运行速度快、运行成本低。然而，它们并不总是泛化得很好，通常需要使用特定领域的数据进行微调。
编码器模型：这些模型，例如某机构的BERT及其变体，用于生成能够驱动任务特定模型的嵌入表示。它们相对较小、速度快，且能够在内部经济高效地运行，比任务特定模型具有更好的泛化能力，但仍需要针对特定应用进行一些微调。
大生成模型：此类别包括诸如Falcon、Mistral和LLaMA等模型。这些模型规模显著更大、运行速度更慢、成本更高，但在泛化和适应方面表现出色，几乎不需要或完全不需要微调即可执行特定任务。

对大语言模型的误解

术语“大语言模型”经常被宽泛且不精确地使用，这模糊了关于其能力和应用的讨论。因此，区分编码器模型和大生成模型非常重要。编码器模型涉及预测结构化数据的任务特定网络，而大生成模型则依赖提示来生成自由格式的文本，需要额外的逻辑来提取可操作的见解。

规模经济的作用

大生成模型由于其复杂性和运营成本，通常通过某中心和某机构等公司提供的API进行访问。这些公司利用规模经济，受益于顶尖人才的获取、批发的计算资源以及允许高效批处理的高请求量。这种设置就像繁忙城市中的火车时刻表，由于需求量大，可以频繁提供服务。

面向人类与面向机器的AI之间的区别

人工智能领域的一个关键区别在于面向人类的系统与面向机器的模型。

面向人类的系统，例如ChatGPT和某中心的Gemini，最重要的区别在于产品特性，包括用户体验、用户界面和定制化，通常会加入限制以防止不良输出。这些产品直接与用户互动，并严重依赖用户数据来改进和完善其功能。
相比之下，底层的模型如GPT-4和Bard是更大系统的组成部分，构成了这些面向消费者的应用程序的支柱。面向机器的模型是基于公开发表的研究和数据构建的、可互换的组件，其性能以速度、准确率、延迟和成本来衡量。

理解这些类型的人工智能应用之间的差异至关重要。这种区别有助于澄清关于垄断人工智能的误解。像某中心这样的公司可能主导了面向用户产品的市场，但未必主导其背后的AI和软件组件。虽然用户数据对于改进面向人类的产品具有优势，但对于提升基础的、面向机器的任务则不那么关键。获取通用知识并不需要特定的数据，这正是大生成模型创新的核心。

实践中AI的能力

实践中的AI能力可大致分为生成任务和预测任务：

生成任务：摘要、推理、问题解决、问答、释义和风格转换是由生成模型启用的新能力。
预测任务：文本分类、实体识别、关系抽取、指代消解、语法和词态学、语义解析以及篇章结构。这些任务涉及将非结构化文本转换为结构化表示，然后用于各种应用程序。

虽然生成式AI提供了许多新的可能性，但许多行业挑战仍然存在，主要集中在构建语言等非结构化数据上。人工智能的出现使我们能够更高效、更大规模地处理这些问题，从而实现更多结构化数据的创建和项目的完成。

告诉计算机该做什么的演进

指导计算机的过程经历了多次迭代：

基于规则的系统：最初，我们使用条件逻辑和正则表达式提供规则或指令。
机器学习：引入了通过示例编程，也称为监督学习，即使用具体示例训练模型。
上下文学习：最近，以自然语言形式（提示）提供规则和指令。

每种方法都有其优缺点。指令直观且易于非专业人士使用，但容易受到数据漂移的影响。示例高度具体，可以表达细微的行为，但生成起来非常耗费人力。那么，如何构建一个工作流程，既能结合这两种方法，又能利用大型通用模型和特定数据来开发聚焦的、任务特定的模型呢？

实际应用与迁移学习

一个实际的人工智能工作流程涉及迭代评估和纠正模型预测，使用迁移学习将通用模型提炼为特定模型。迁移学习对于实际应用仍然重要，允许构建模块化、可解释且经济高效的解决方案。

使用大生成模型有助于克服冷启动问题，使原型能够开箱即用。这些原型可以被提炼成更小、更快、更具体的模型。这种方法避免了从头开始生成示例的繁重过程，并减少了运行时对庞大复杂模型的依赖。

任务特定模型的人机协同提炼

开发提炼后的任务特定模型符合软件开发的最佳实践，具有诸多好处：

模块化：该方法高度模块化，符合软件开发最佳实践。这使得可以维持现代化的工作流程，并相应调整模型开发。
无锁定：用户不受限于任何特定供应商。模型可以与各种供应商合作开发，但在运行时可以独立拥有和管理。
可测试：组件可以单独测试，这使得监控和检测故障比单一的黑箱系统更容易。
灵活且运行成本低：模型是系统中的灵活组件，可以优化以高效运行，甚至在CPU上或具有较小的资源占用，从而显著降低运营成本。
可在内部运行：这对于安全处理敏感数据而不依赖外部API至关重要，确保了数据隐私和法规遵从性。
透明且可预测：用户可以了解模型的工作原理，从而更好地理解和预测模型行为。
可编程：模型可以通过编程方式集成到现有工作流程中，满足业务需求并最大限度地减少集成挑战。

这些也正是公司选择开源软件的原因，这并非巧合：人工智能开发仍然是一种软件开发，同样的原则也适用。

应对担忧与监管

规模经济曾被认为是垄断优势的关键，但在科技领域面临着因激烈竞争导致成本下降的挑战。能够在开发（而非生产）期间依赖原本成本高昂的开源模型，使得规模经济这一护城河更加无关紧要。

监管成为大型科技公司为巩固其在领域垄断地位而追求的另一种策略，它们游说世界各国政府实施只有它们自己能够遵守的人工智能立法。

在监管中保持清晰度对于确保人工智能在没有垄断控制的情况下发展至关重要。通过区分应用程序和核心技术，政策制定者可以培育一个鼓励创新同时保护消费者利益的竞争格局。这种区别对于引导人工智能走向创新和可及性的未来至关重要，届时没有任何单一实体拥有过度的市场影响力。

结论

人工智能开发和部署的格局以透明性和可及性为特征，而非秘密优势。在大语言模型领域，它们是集成组件而非独立产品，专有知识或独家数据访问并不会带来固有的构建垄断的优势。

这些模型可以有效地被其他方法替代或补充，从而促进互操作性和竞争，这与垄断背道而驰。开源软件在确保这种灵活性方面发挥着至关重要的作用，并通过协作开发和社区审查促进了创新。

然而，监管措施可能无意中助长垄断行为的担忧依然存在。为防止这种情况，法规应侧重于监管行为和用例，而不是针对特定技术或软件组件。

这种平衡的方法对于在人工智能开发中保持竞争和包容的环境至关重要。它还有助于避免行业游说可能试图为其自身利益而扭曲监管框架的不当影响。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码

posted @ 2026-01-04 20:04 CodeShare 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

codeshare1135