Coral Protocol 以 34% 的优势超越微软,成为 AI 微型模型的顶级 GAIA 基准

简要

Coral Protocol的多智能体系统在GAIA基准测试中超越了微软支持的Magnetic-UI,表现提高了34%,这表明小型模型的智能编排可以与传统的大规模AI方法相抗衡或超越。

珊瑚协议为迷你智能代理系统设定了新的基准,在GAIA测试中超越微软34%

用于协作 AI 的去中心化基础设施,Coral Protocol 报告称其多智能体系统在 GAIA 基准测试中比微软支持的 Magnetic-UI 超出了 34%——这一前所未有的结果表明,横向扩展可能比扩大模型参数提供更有效的方法。该协议的系统利用多个智能体之间的智能编排,而不是仅仅专注于增加模型大小。

这项表现标志着在GAIA基准上使用迷你代理获得的最高验证分数,支持了NVIDIA的观点,即协调良好的小型模型在AI的未来中可能发挥关键作用。根据Coral开发者的说法,结果反映了在处理AI可扩展性时的概念转变,而不仅仅是系统能力的纯粹增加。

作为一个开放协议,Coral 通过促进全球专门代理之间的协调,而不是依赖集中式通用模型,从而扩展了 AI 能力。其架构允许代理之间进行并行、安全的互动,增强了各种规模语言模型在需要高级推理、规划和解决问题的任务中的功能。

“这一突破标志着人工智能基础设施的一个转折点,”Coral首席技术官Caelum Forder在一份书面声明中表示。“这证明了水平扩展不仅是可能的——而且是实用的,而Coral是实现这一目标的最有效方式。代理人互联网现在已成为一个现实。如果你是一个代理人开发者,就用Coralise。如果你是一个应用程序开发者,使用我们的基础设施以更少的成本构建更好的产品,”他补充道。

Coral Tops GAIA 基准,验证小型模型在先进代理系统中的能力

在日益激烈的竞争中,开发先进的代理系统,许多焦点仍然集中在扩大模型规模以应对日益复杂的任务。Coral最近的表现挑战了这种主流方法,符合最近NVIDIA研究的发现,表明较小的系统可以在不影响速度、安全性或效率的情况下提供高性能。GAIA基准测试是一个全面的高级人工智能评估套件,旨在评估系统在处理通常需要大量时间和技能的人类专家的现实任务方面的表现。该基准包括450个复杂的提示,测试研究、分析和推理能力,是评估通用大型语言模型(LLM)代理有效性的关键行业指标。

Coral的GAIA代理系统在基准测试中使用,基于Coral协议,并借鉴了CAMEL的OWL设计原则。它包含专门的代理,执行包括研究、分析、批评、规划和网络导航在内的一系列任务,所有这些都通过Coral的MCP服务器基础设施进行通信。

在GAIA基准排名中领先的小型模型表明,Coral有潜力通过基于图的结构扩展AI系统的功能。这个结果表明,可以使用小型模型创建高性能、轻量级的代理,从而促进更广泛的数据处理、更顺畅的生态系统集成和增强的代理间通信。

“到目前为止,小模型在代理系统中的作用被低估了,但潮流开始转变,”Caelum Forder说。“我们已经证明这些模型可以超越其先前已知的限制,并且能够超越现有竞争者。我相信它们在代理人工智能的未来中将发挥核心作用,”他总结道。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)