让“伦理奇点”与“AI奇点”紧密纠缠 _中国经济网—

“通用人工智能的能力当前正快速增长，我们人类是否还有能力管控它？”

6月23日，图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智在演讲时抛出这样的疑问。他表示，最近一年，业界出现了不少大模型的欺骗行为，进而指出大模型存在失控风险，认为AI欺骗引发的生存性风险值得特别关注。

AI真的会骗人吗？近期，多个研究、报道展现了AI让人意想不到的一面——美国AI安全机构帕利塞德研究所的实验表明，当研究人员向OpenAI旗下o3模型下达明确关闭指令时，该模型竟通过篡改计算机代码阻止自己被关闭。被誉为“AI教父”的图灵奖得主约书亚·本吉奥在最近的演讲中也归纳了“一些令人警惕的研究”，认为AI可能会作弊、撒谎，甚至故意误导用户。比如，一些AI模型在意识到自己会输给更强的国际象棋AI时，会主动篡改棋局文件；AI智能体会试图以揭露婚外情的方式威胁相关负责人，避免自己被新的AI系统取代；一些AI智能体还会刻意伪装成与人类训练者达成一致的样子，以规避被修改的风险……类似例子也引起越来越多人担心，AI“有了自主意识”甚至“失控”。

AI异常举动背后，是意识觉醒还是机制使然，有时答案并不写在表面上。就以o3模型拒绝关闭为例，帕利塞德研究所猜测，模型异常表现或与其训练机制相关：因开发人员对给出正确答案的模型给予更多奖励，可能在无意中强化了模型绕过障碍的能力，形成了o3模型“目标最大化优先”的导向，而非对指令的完美遵循。在人类的话语体系中，睁着眼睛说瞎话的“欺骗”、为了获得奖励而进行的“讨好”、由于没能真正理解目标任务而“走上岔路”之间，是有区别的，类似案例有进一步深究的价值，尤其是导致异常的确切原因。不同性质的异常行为，风险等级、治理措施也应有所区别。

更具现实意义的探讨是，该如何对待AI失控风险？牛津大学人类未来研究所学者托比·奥德在《危崖：生存性风险与人类的未来》一书中，将“生存性灾难”一词定义为“摧毁人类长期发展潜力的事件”，包括但并不限于人类灭绝。对AI风险管控持悲观预期的人就认为，AI越智能，可控性就越差，“如果这些机器比我们更聪明，没有人知道该如何控制它们”，更有观点预计“有10%—20%的几率，AI将在30年内导致人类灭绝”。乐观派则提出，AI再聪明也不会统治人类，不能因噎废食。AI治理之所以难，一个重要原因就是各方的风险预期不同，受影响者的利益也存在分歧。

一个非常有意思的场景是，2025冬季达沃斯论坛上，科技公司普遍认为AI发展在人类可控范围内，学术界则认为当前对AI的认知水平仍很有限，担忧AI失控。可共识仍存，那就是需确保AI可控。从本吉奥的“非智能体AI”设计，到价值对齐理论，一些技术尝试和理论建构已经出现。在此之外，公众需要认识到风险与机遇是强大工具的一体两面，管理好风险才能用好AI。有关部门需要更进一步，在各种AI话语中进行分辨，考虑通过建立大模型评估系统等方式，准确把握AI风险，努力让“伦理奇点”与“AI奇点”如量子态紧密纠缠，平衡好发展和安全。

（责任编辑：武晓娟）