大型语言模型(LLM)为构建通用人工智能代理提供了引人注目的基础。这些代理很快就会在现实世界中大规模部署,代表个人(例如,AI助手)或群体(例如,AI加速的企业)的利益。目前,对多个人工智能代理在多代迭代部署中相互作用的动态了解甚少。
在本文中,我们研究了一个LLM代理的“社会”是否能够在背叛的激励下学习到互利的社会规范,这是人类社会的一个独特特征,可以说是文明成功的关键。特别是,我们研究了跨代LLM代理在经典的迭代捐赠游戏中进化间接互惠的情况,在该游戏中,代理可以观察到其同行的近期行为。
我们发现,合作的进化在不同的基础模型之间差异很大,Claude 3.5 Sonnet代理的社会取得的平均得分明显高于Gemini 1.5 Flash,而后者又优于GPT-4o。此外,Claude 3.5 Sonnet可以使用额外的代价惩罚机制来获得更高的分数,而Gemini 1.5 Flash和GPT-4o则无法做到这一点。对于每个模型类别,我们还观察到跨随机种子的涌现行为存在差异,这表明对初始条件的敏感依赖性尚未得到充分研究。
我们认为,我们的评估方案可以激发一种廉价且信息丰富的新型LLM基准测试,重点关注LLM代理部署对社会合作基础设施的影响。