让“伦理奇点”与“AI奇点”紧密纠缠

2025-06-25 08:04 来源:南方日报

“通用人工智能的能力当前正快速增长,我们人类是否还有能力管控它?”

6月23日,图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智在演讲时抛出这样的疑问。他表示,最近一年,业界出现了不少大模型的欺骗行为,进而指出大模型存在失控风险,认为AI欺骗引发的生存性风险值得特别关注。

AI真的会骗人吗?近期,多个研究、报道展现了AI让人意想不到的一面——美国AI安全机构帕利塞德研究所的实验表明,当研究人员向OpenAI旗下o3模型下达明确关闭指令时,该模型竟通过篡改计算机代码阻止自己被关闭。被誉为“AI教父”的图灵奖得主约书亚·本吉奥在最近的演讲中也归纳了“一些令人警惕的研究”,认为AI可能会作弊、撒谎,甚至故意误导用户。比如,一些AI模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件;AI智能体会试图以揭露婚外情的方式威胁相关负责人,避免自己被新的AI系统取代;一些AI智能体还会刻意伪装成与人类训练者达成一致的样子,以规避被修改的风险……类似例子也引起越来越多人担心,AI“有了自主意识”甚至“失控”。

AI异常举动背后,是意识觉醒还是机制使然,有时答案并不写在表面上。就以o3模型拒绝关闭为例,帕利塞德研究所猜测,模型异常表现或与其训练机制相关:因开发人员对给出正确答案的模型给予更多奖励,可能在无意中强化了模型绕过障碍的能力,形成了o3模型“目标最大化优先”的导向,而非对指令的完美遵循。在人类的话语体系中,睁着眼睛说瞎话的“欺骗”、为了获得奖励而进行的“讨好”、由于没能真正理解目标任务而“走上岔路”之间,是有区别的,类似案例有进一步深究的价值,尤其是导致异常的确切原因。不同性质的异常行为,风险等级、治理措施也应有所区别。

更具现实意义的探讨是,该如何对待AI失控风险?牛津大学人类未来研究所学者托比·奥德在《危崖:生存性风险与人类的未来》一书中,将“生存性灾难”一词定义为“摧毁人类长期发展潜力的事件”,包括但并不限于人类灭绝。对AI风险管控持悲观预期的人就认为,AI越智能,可控性就越差,“如果这些机器比我们更聪明,没有人知道该如何控制它们”,更有观点预计“有10%—20%的几率,AI将在30年内导致人类灭绝”。乐观派则提出,AI再聪明也不会统治人类,不能因噎废食。AI治理之所以难,一个重要原因就是各方的风险预期不同,受影响者的利益也存在分歧。

一个非常有意思的场景是,2025冬季达沃斯论坛上,科技公司普遍认为AI发展在人类可控范围内,学术界则认为当前对AI的认知水平仍很有限,担忧AI失控。可共识仍存,那就是需确保AI可控。从本吉奥的“非智能体AI”设计,到价值对齐理论,一些技术尝试和理论建构已经出现。在此之外,公众需要认识到风险与机遇是强大工具的一体两面,管理好风险才能用好AI。有关部门需要更进一步,在各种AI话语中进行分辨,考虑通过建立大模型评估系统等方式,准确把握AI风险,努力让“伦理奇点”与“AI奇点”如量子态紧密纠缠,平衡好发展和安全。

查看余下全文
(责任编辑:武晓娟)
当前位置     首页 > 滚动 > 正文
中经搜索

让“伦理奇点”与“AI奇点”紧密纠缠

2025年06月25日 08:04   来源:南方日报   维辰

“通用人工智能的能力当前正快速增长,我们人类是否还有能力管控它?”

6月23日,图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智在演讲时抛出这样的疑问。他表示,最近一年,业界出现了不少大模型的欺骗行为,进而指出大模型存在失控风险,认为AI欺骗引发的生存性风险值得特别关注。

AI真的会骗人吗?近期,多个研究、报道展现了AI让人意想不到的一面——美国AI安全机构帕利塞德研究所的实验表明,当研究人员向OpenAI旗下o3模型下达明确关闭指令时,该模型竟通过篡改计算机代码阻止自己被关闭。被誉为“AI教父”的图灵奖得主约书亚·本吉奥在最近的演讲中也归纳了“一些令人警惕的研究”,认为AI可能会作弊、撒谎,甚至故意误导用户。比如,一些AI模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件;AI智能体会试图以揭露婚外情的方式威胁相关负责人,避免自己被新的AI系统取代;一些AI智能体还会刻意伪装成与人类训练者达成一致的样子,以规避被修改的风险……类似例子也引起越来越多人担心,AI“有了自主意识”甚至“失控”。

AI异常举动背后,是意识觉醒还是机制使然,有时答案并不写在表面上。就以o3模型拒绝关闭为例,帕利塞德研究所猜测,模型异常表现或与其训练机制相关:因开发人员对给出正确答案的模型给予更多奖励,可能在无意中强化了模型绕过障碍的能力,形成了o3模型“目标最大化优先”的导向,而非对指令的完美遵循。在人类的话语体系中,睁着眼睛说瞎话的“欺骗”、为了获得奖励而进行的“讨好”、由于没能真正理解目标任务而“走上岔路”之间,是有区别的,类似案例有进一步深究的价值,尤其是导致异常的确切原因。不同性质的异常行为,风险等级、治理措施也应有所区别。

更具现实意义的探讨是,该如何对待AI失控风险?牛津大学人类未来研究所学者托比·奥德在《危崖:生存性风险与人类的未来》一书中,将“生存性灾难”一词定义为“摧毁人类长期发展潜力的事件”,包括但并不限于人类灭绝。对AI风险管控持悲观预期的人就认为,AI越智能,可控性就越差,“如果这些机器比我们更聪明,没有人知道该如何控制它们”,更有观点预计“有10%—20%的几率,AI将在30年内导致人类灭绝”。乐观派则提出,AI再聪明也不会统治人类,不能因噎废食。AI治理之所以难,一个重要原因就是各方的风险预期不同,受影响者的利益也存在分歧。

一个非常有意思的场景是,2025冬季达沃斯论坛上,科技公司普遍认为AI发展在人类可控范围内,学术界则认为当前对AI的认知水平仍很有限,担忧AI失控。可共识仍存,那就是需确保AI可控。从本吉奥的“非智能体AI”设计,到价值对齐理论,一些技术尝试和理论建构已经出现。在此之外,公众需要认识到风险与机遇是强大工具的一体两面,管理好风险才能用好AI。有关部门需要更进一步,在各种AI话语中进行分辨,考虑通过建立大模型评估系统等方式,准确把握AI风险,努力让“伦理奇点”与“AI奇点”如量子态紧密纠缠,平衡好发展和安全。

(责任编辑:武晓娟)

分享到:
中国经济网版权及免责声明:
1、凡本网注明“来源:中国经济网” 或“来源:经济日报-中国经济网”的所有作品,版权均属于
  中国经济网(本网另有声明的除外);未经本网授权,任何单位及个人不得转载、摘编或以其它
  方式使用上述作品;已经与本网签署相关授权使用协议的单位及个人,应注意该等作品中是否有
  相应的授权使用限制声明,不得违反该等限制声明,且在授权范围内使用时应注明“来源:中国
  经济网”或“来源:经济日报-中国经济网”。违反前述声明者,本网将追究其相关法律责任。
2、本网所有的图片作品中,即使注明“来源:中国经济网”及/或标有“中国经济网(www.ce.cn)”
  水印,但并不代表本网对该等图片作品享有许可他人使用的权利;已经与本网签署相关授权使用
  协议的单位及个人,仅有权在授权范围内使用该等图片中明确注明“中国经济网记者XXX摄”或
  “经济日报社-中国经济网记者XXX摄”的图片作品,否则,一切不利后果自行承担。
3、凡本网注明 “来源:XXX(非中国经济网)” 的作品,均转载自其它媒体,转载目的在于传递更
  多信息,并不代表本网赞同其观点和对其真实性负责。
4、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

※ 网站总机:010-81025111 有关作品版权事宜请联系:010-81025135 邮箱:

精彩图片
关于经济日报社关于中国经济网网站大事记网站诚聘版权声明互联网视听节目服务自律公约广告服务友情链接纠错邮箱
经济日报报业集团法律顾问:北京市鑫诺律师事务所    中国经济网法律顾问:北京刚平律师事务所
中国经济网 版权所有  互联网新闻信息服务许可证(10120170008)   网络传播视听节目许可证(0107190)  京ICP备18036557号

京公网安备 11010202009785号