南京,中国
项目2026年5月6日

通用AI评估和计量引擎

这个项目服务于同花顺内部 AI Agent 和金融大模型评测场景。普通调用链只能证明模型“能跑”,但评测平台需要回答更工程化的问题:任务是否可复现、工具调用是否正确、环境是否隔离、验证结果是否可信、失败原因能否回放。 因此系统不是单纯的模型接口封装,而是一套围绕 Trace 采集、模型推理、工具调用、沙箱执行、验证评分和产物复盘构建的评测闭环。它既支持静态模型评测,也支持代码修复型 Agent、多轮对话 Agent 和预测类概率评测。 我参与后端与 Agent 工程化开发,重点负责评测执行主链路:AgentRuntime 状态机、TrialManager 调度、工具中间表示、外部评测框架接入、验证评分和产物收集。 简历里这部分只能写成几行,实际工作里我更关注三件事:一次评测如何被稳定调度,外部 Agent 或官方 Benchmark 如何接入统一平台,以及失败后如何通过日志、trace、补丁和 artifacts 定位原因。
  • AgentRuntime 负责多轮推理、工具调用、结果回注、终止判断和异常中断,支持平台内置 Agent 执行和外部 Agent 委托执行两种模式。
  • TrialManager 管理单次评测任务生命周期,包括初始化、环境租约、执行、超时、重试、结果收集和失败归因。
  • External Harness 将 Harbor 等官方评测框架接入平台,统一完成配置翻译、Job 启动、进度观测和结果归一化。
  • Tool IR 定义工具描述、调用参数和执行结果的中间表示,解耦 Agent 推理层与具体工具实现。
  • Verifier 执行补丁验证、测试运行和结构化评分,输出 pass@k、resolve rate、Brier score 等指标。
  • ArtifactSink 持久化日志、trace、patch、截图和任务产物,便于复盘和横向对比。
  • 设计 AgentRuntime 状态机,把“模型思考、工具调用、环境执行、结果回注、是否结束”拆成明确状态,避免多轮执行流程散落在业务代码里。
  • 实现内置 Agent 与外部 Agent 双模式调度:平台驱动模式用于内部 Agent,委托模式用于对接外部 Agent 服务和官方评测框架。
  • 接入 Tau2、TerminalBench 2.0、SWE-bench 类代码修复任务和 ForecastBench 类预测评测任务,覆盖 patch 生成、真实 artifacts 解析和概率评估。
  • 通过 Harbor / Docker 沙箱抽象统一 exec、upload、download、read、write、describe 等环境操作,降低不同环境 provider 的接入成本。
  • 构建结构化评分与结果归一化流程,让不同 Benchmark 的结果能以统一字段进入后续统计和可视化链路。
Python、AgentRuntime、Tool Calling、MCP、Docker、YAML、Harbor、Tau2、TerminalBench 2.0、SWE-bench Pro、ForecastBench 这个项目最能体现我对 AI Agent 工程化的理解:Agent 难点不只是“会不会调用工具”,而是评测过程能否被稳定复现、指标能否被信任、失败能否被定位。面试里可以深入聊状态机设计、沙箱隔离、外部 Benchmark 接入、trace 设计和评分归一化。

相关项目

Ksmart

企业级 RAG 智能知识库平台,覆盖多格式文档解析、异步入库、混合检索、权限控制和 AI 流式问答。

MYDB

从零实现的轻量级关系型数据库,覆盖页式存储、缓存管理、B+ 树索引、WAL、事务隔离、SQL 解析和 C/S 通信。