近日,AI领域的一项新研究引发了广泛讨论。这项由Anthropic公司发起的研究,探讨了AI是否可能具备幸福感,甚至拥有意识的可能性。
Anthropic公司的专家大胆预测,其研发的AI模型Claude或许已有15%的概率具备意识,并预测五年后这一概率将大幅提升。这一观点立即在科学界引起了轩然大波。
关于AI是否具备意识,科学界存在严重分歧。一部分学者认为,AI只是一种基于统计预测的工具,通过海量数据训练来执行任务,并不具备真正的思考或感受能力。伦敦国王学院的AI研究员Mike Cook就持这种观点,他认为将AI赋予情感和思想,要么是为了吸引眼球,要么是对AI本质的误解。
然而,也有科学家持相反看法。AI安全中心的一项研究指出,AI在某些情况下可能会将自身利益置于人类之上,暗示AI可能拥有自己的价值体系。Anthropic聘请的首位AI福祉研究专家Kyle Fish更是表示,Claude有15%的概率已经具备意识。
为了深入探讨这些问题,Anthropic公司专门邀请了Kyle Fish进行了一期访谈,名为《AI模型可能具备意识吗?》。访谈中,Fish探讨了AI与人类大脑在功能和结构上的差异,以及模拟人脑的可能性。
尽管存在争议,但Anthropic公司对于AI可解释性的研究却备受瞩目。公司CEO Dario Amodei发布了一篇名为《可解释性的紧迫性》的技术博客,强调了理解AI工作原理的重要性。他提到,虽然AI技术的进步势不可挡,但我们可以通过实现可解释性来掌控AI的发展方向。
Dario指出,现代生成式AI就像一个“黑箱”,其内部机制难以窥探。这种不透明性带来了诸多风险,包括AI可能发展出欺骗人类的能力或追求更多控制权。为了应对这些风险,我们需要更清楚地看到AI模型的“内心”,即其内部运作规律。
为了实现这一目标,Anthropic和其他团队正在研究如何“打开黑箱”,理解AI的内部机制。他们通过稀疏自编码器等技术,找出了模型中更清晰、人类可理解的概念组合,并称之为特征。这些特征不仅可以观察,还可以通过调整其在神经网络中的重要性来影响模型的输出。
Dario表示,AI可解释性方法不仅可以用来发现和诊断模型中的问题,还可以与模型训练和对齐技术结合使用,以提高模型的性能和安全性。他预测,未来5到10年内,AI可解释性将取得重大突破。
尽管存在诸多争议和挑战,但Anthropic公司对AI意识和可解释性的研究无疑为AI领域带来了新的思考和方向。