福大大吧 关注:10贴子:1,004
  • 0回复贴,共1

agno v2.3.21版本发布详解:AgentOS全面支持Agent As Judge评测

只看楼主收藏回复

agno v2.3.21版本发布详解:AgentOS全面支持Agent As Judge评测与多项稳定性增强
1. 功能概述
“Agent as Judge”是一种先进的评估范式,它使用一个专门的智能体(Judge Agent)来评估另一个智能体(或团队)在给定任务上的输出质量。这通常用于衡量响应的准确性、相关性、完整性等主观性较强的指标。与传统的基于规则或简单字符串匹配的评估方式相比,Agent as Judge能够利用大语言模型的理解能力,进行更接近人类判断的评估。
2. 集成详情
在v2.3.21之前,开发者可能已经能够在Agno框架内创建Agent as Judge评估逻辑,但管理和运行这些评估可能不够便捷。本次更新后,这一功能在AgentOS中获得了完整的官方支持:
• 配置与触发:用户现在可以直接在AgentOS的Evals(评估)页面中,配置新的Agent as Judge评估任务并触发其运行。这为评估工作流提供了统一的图形化界面。
• 统一管理:Agent as Judge评估的运行记录将与现有的准确性、性能、可靠性等评估结果一同,集中展示在Evals页面中。这实现了对所有类型评估的集中监控和管理,极大地提升了操作效率。
• API端点增强:对应的GET API端点也已更新,现在可以返回Agent as Judge评估的相关数据,确保了控制平面与后端服务的数据一致性。


IP属地:北京1楼2025-12-25 06:30回复