读智能涌现： AI时代的思考与探索07安全保障(上)

1. 安全性

1.1. 格外警惕技术的副作用，甚至要以较普通用户更审慎的态度来观察、预测某项技术的阴影部分，防患于未然

1.2. 对于比往昔的智能技术强出不止一个层次的AI新科技，以及继续向前演进势必会诞生的AGI、ASI（超级人工智能）来说，更应未雨绸缪，通过各种必要手段，在将其性能、通用性与可靠性提至最高的同时，把潜在风险降至最低

1.3. AI大模型都拥有较过往存在的智能体强大N倍的能力

1.4. 从过去多种算法、多个任务、多元模型，走向现在的相对统一的大算法、多模态、预训练、自训练与自监督的大模型，Token-based（基于词元的）训练逐渐成为大模型开发与应用的重心

2. 智械危机

2.1. 第一重风险是信息风险

2.1.1. 假消息、被断章取义因而不符原意的消息、真伪难辨的图片和音频、无中生有的消息源和评论等，这些与互联网、社交网络的兴盛伴生随行的负面衍生物一直都存在，但大模型带来了更大的风险—波及面可能更广泛，影响也可能更糟糕

2.2. 第二重风险是，当信息智能拓展到物理智能、生物智能时，一旦失控，或是被心怀恶意的人利用，其所能造成的破坏或许会大大超出人们的预料

2.2.1. 模型作为生产力平台乃至新一代操作系统，会被用于我们所能想象的任何一处应用领域，包括且不限于金融系统、军事指挥系统、政务决策系统等，届时，风险必然会呈指数级上升

2.3. 第三重风险是可能关系到人类能否持续生存繁衍的意外变故

2.3.1. AI大模型或将给人类带来与核武器、致命性病毒同等级的威胁
2.3.2. 威胁有可能来自AI本身的不可控性，以及自动化能力被滥用后的可悲场景
2.3.3. 仍处在AI研究与多样化产品开发的早期阶段，尚有很多时间和方法对其发展路径进行规范化调节，重要的是时刻保持危机意识

2.4. 建议

2.4.1. 针对前沿大模型，应建立一个严谨的分级评估体系
2.4.2. 要有实体的映射
2.4.2.1. 很多时候，创新不需要也不应该被严密监管，但前沿大模型是一种不同的创新存在
2.4.2.2. 由AI生成、数字人表达的多媒体内容理应加上清晰的标注
2.4.2.3. 在生成AI智能体时，应使智能体存在相对应的现实主体，并且要让其影响的对象都能明白，这个智能体仅仅是现实主体的从属或镜像

2.4.2.3.1. 一旦智能体出现问题、造成失误，便能轻易追溯到主体

2.4.3. 从事前沿大模型开发的企业、基金会、科研组织等，应当从AI研发资金中拨出10%用于AI风险研究
2.4.3.1. AI风险研究并不只限于政策与规则的层面，还有很多高深的学术课题与技术难点
2.4.3.2. AI技术的研发者必须从此刻开始关注风险问题，这样才能与企业、政府共同前进

3. 人工智能风险

3.1. 任何强大的技术若不为其制定“规则”和“限制”，而是不加约束地使用，那便极有可能造成灾难性的后果

3.1.1. 从现在开始，我们就应该像对待核武器那样高度重视AI风险

3.2. 随着前沿大模型一飞冲天且快速迭代，与之相伴的潜在风险也在不断累积

3.2.1. 目前为止，我还想象不到更智能的事物为一些没它们智能的事物所控制的例子。打个比方，假设青蛙创造了人类，那么你认为现在谁会占据主动权，是人还是青蛙？
3.2.1.1. 深度学习之父、2024年诺贝尔物理学奖得主杰弗里·辛顿

3.3. 深度伪造：利用深度学习技术生成高度逼真、实为伪造的图文及音视频内容

3.4. 幻觉问题(Hallucination)：AI生成了看似真实但实际不准确甚至是生造的信息，给用户带来不必要的困惑，还可能造成更严重的后果

3.5. 有毒信息(Toxic Information)：AI生成或传播了仇恨言论、有误导或曲解嫌疑的事件解读、虚假新闻、骚扰内容等有害信息

3.6. 递归式AI发展：AI系统在自我改进与进化的过程中，可能出现令研发人员始料未及的糟糕结果

3.7. 失控和误用AI代理：在没有适当监督的情况下，AI代理或许会擅自实施有害或不道德的行为

3.8. 具身AI和生物AI：这些技术可能带来新的伦理和安全问题，甚至在物理世界掀起一场场危机

3.9. 大规模的系统风险：任何系统在被大规模应用后，都可能遭遇各种危及系统及其使用者的风险，如系统崩溃、受到网络攻击等

3.10. 通用人工智能技术对就业市场和社会收入不平等的影响：通用人工智能可能导致人类的某些工作岗位被机器取代，进而令社会收入不平等的现象加剧

3.11. 将AI比作异类智能/外星智能(Alien Intelligence)，因为AI做决策的方式与人类思维有着根本的不同

4. 两种智慧

4.1. 人类拥有两种智慧—发明创造技术与控制技术走向，两者必须均衡前行

4.2. 在AI技术方面，“控制技术走向”稍稍落后

4.3. 作为研发者，我们一定要更快地解决AI与人类价值观对齐的问题，也就是要确保AI系统的目标、决策过程和行为完全符合人类的价值观与利益

4.4. 研发人员要将一部分资源和精力投放在“对齐”的课题上，先要让机器理解、接受、遵循人的价值观

4.4.1. 不仅是跨学科、跨领域的伦理问题，还有实现路径中可能存在的悖论
4.4.2. 如果AI的智慧程度足以理解、接受并遵循人类的价值观，这就意味着它在智商和情商等方面已经达到或超越人类的平均水平
4.4.3. AI不仅能够处理复杂的任务，还能理解和内化人类的伦理与道德标准
4.4.4. 一旦AI具备了这样的能力，它可能会发展出自己的价值观和行为规则
4.4.5. 高智能系统具有自我学习和自我改进的能力，可能会在不断的学习和进化过程中形成独立且独特的思维模式与价值体系
4.4.6. 如何确保AI始终都能遵循人类的价值观而不产生自己独立的价值观，就成为一个巨大的挑战
4.4.7. 即使我们在初始阶段对AI进行了严格的对齐训练，随着时间的推移和AI的自我进化，这种对齐有可能会逐渐失效
4.4.8. 身处AI研发前沿领域的人士负有重大责任，绝不能只注重挖掘AI的能力，而不着力于推进对齐任务

4.5. 要制定和持续优化与AI监管相关的一些基本原则

4.5.1. 阿西洛马人工智能23条原则
4.5.1.1. 旨在确保AI技术的发展始终可对人类社会产生积极的影响
4.5.2. 无论是机器人、AI系统还是自动驾驶汽车、智能应用，其权限与责任都不应超越人类
4.5.3. 掌握着最终决策权的个人、公司或组织，理应承担更大的责任
4.5.4. AI不可拥有自己独立的伦理和价值体系
4.5.4.1. 不管用AI来做什么，它都是服务于人的系统，它的价值就是人的价值，它的伦理体系需承继人的伦理体系
4.5.4.2. 研发者必须保证AI始终是人类伦理和价值体系的服膺者与展现者

4.6. 虽然监管不是万能的，但它能够有效地保障AI技术不朝错误的方向发展

4.6.1. 互联网诞生时经历过一段龙蛇共舞、野蛮生长的时期，网诈、盗版、侵犯隐私的现象一度甚嚣尘上，直至其发展到一定规模和程度，才有新的法规出现，对乱象进行纠正
4.6.2. 政策法规的出台速度有时滞后于技术的进步速度

4.7. 人的价值一定高于技术

4.7.1. 类似的还有基因编辑技术，世界各国多有明确立法，要求不可将此类技术用于改变物种，特别是人类—并非技术层面无法实现，而是此举突破底线，人将不人
4.7.2. 就如AI，既然我们对很多“为什么”的问题不甚明了，那么再将其应用到物理系统和关键使命体系时，小心保守显然胜于大胆激进

5. 行动

5.1. 2020年后，AI仿佛进入了自己的“奇点时刻”，GPT系列、Claude、Google Gemini、Meta LLaMA等先进模型不断涌现，AI也开始加速融入医疗、自动驾驶、创意媒体等行业领域

5.2. 降低AI带来的极端风险，应与流行病、核战争等其他社会规模的风险，一并成为全球优先事项。

5.3. 对话机制的原则

5.3.1. 聚焦并深入理解当下时间点前沿AI技术的发展状态和下一步的趋势，推演可能存在的风险
5.3.2. 每一位与会的AI学者都应有自己的团队，能够及时妥善地跟进处理风险预警及对齐等问题，要能为“让对话不只停留在对话层面”有所贡献
5.3.3. AI学者要有自行推进研究的能力和资源，前沿大模型等技术首先是科研问题，其次才是产品与政策问题
5.3.4. 应基于对话所得，与各国各地的政策制定者进行深入沟通，促成相关企业将安全机制内建在大模型中
5.3.5. 可以积极借鉴其他存在重大风险的领域（如大规模杀伤性武器）的安全与保障机制
5.3.6. 将我们思考与对话所得的关键发现提炼为宣言或建议，供政策制定者、商业决策者参考

posted @ 2026-05-21 07:52 躺柒阅读(15) 评论(0) 收藏举报

刷新页面返回顶部