项目2026年5月6日

通用AI评估和计量引擎

项目背景

这个项目服务于同花顺内部 AI Agent 和金融大模型评测场景。普通调用链只能证明模型“能跑”，但评测平台需要回答更工程化的问题：任务是否可复现、工具调用是否正确、环境是否隔离、验证结果是否可信、失败原因能否回放。因此系统不是单纯的模型接口封装，而是一套围绕 Trace 采集、模型推理、工具调用、沙箱执行、验证评分和产物复盘构建的评测闭环。它既支持静态模型评测，也支持代码修复型 Agent、多轮对话 Agent 和预测类概率评测。

我的职责

我参与后端与 Agent 工程化开发，重点负责评测执行主链路：AgentRuntime 状态机、TrialManager 调度、工具中间表示、外部评测框架接入、验证评分和产物收集。简历里这部分只能写成几行，实际工作里我更关注三件事：一次评测如何被稳定调度，外部 Agent 或官方 Benchmark 如何接入统一平台，以及失败后如何通过日志、trace、补丁和 artifacts 定位原因。

系统拆解

AgentRuntime 负责多轮推理、工具调用、结果回注、终止判断和异常中断，支持平台内置 Agent 执行和外部 Agent 委托执行两种模式。
TrialManager 管理单次评测任务生命周期，包括初始化、环境租约、执行、超时、重试、结果收集和失败归因。
External Harness 将 Harbor 等官方评测框架接入平台，统一完成配置翻译、Job 启动、进度观测和结果归一化。
Tool IR 定义工具描述、调用参数和执行结果的中间表示，解耦 Agent 推理层与具体工具实现。
Verifier 执行补丁验证、测试运行和结构化评分，输出 pass@k、resolve rate、Brier score 等指标。
ArtifactSink 持久化日志、trace、patch、截图和任务产物，便于复盘和横向对比。

关键实现

设计 AgentRuntime 状态机，把“模型思考、工具调用、环境执行、结果回注、是否结束”拆成明确状态，避免多轮执行流程散落在业务代码里。
实现内置 Agent 与外部 Agent 双模式调度：平台驱动模式用于内部 Agent，委托模式用于对接外部 Agent 服务和官方评测框架。
接入 Tau2、TerminalBench 2.0、SWE-bench 类代码修复任务和 ForecastBench 类预测评测任务，覆盖 patch 生成、真实 artifacts 解析和概率评估。
通过 Harbor / Docker 沙箱抽象统一 exec、upload、download、read、write、describe 等环境操作，降低不同环境 provider 的接入成本。
构建结构化评分与结果归一化流程，让不同 Benchmark 的结果能以统一字段进入后续统计和可视化链路。

技术栈

Python、AgentRuntime、Tool Calling、MCP、Docker、YAML、Harbor、Tau2、TerminalBench 2.0、SWE-bench Pro、ForecastBench

可聊点

这个项目最能体现我对 AI Agent 工程化的理解：Agent 难点不只是“会不会调用工具”，而是评测过程能否被稳定复现、指标能否被信任、失败能否被定位。面试里可以深入聊状态机设计、沙箱隔离、外部 Benchmark 接入、trace 设计和评分归一化。

Ksmart

企业级 RAG 智能知识库平台，覆盖多格式文档解析、异步入库、混合检索、权限控制和 AI 流式问答。

查看详情

MYDB

从零实现的轻量级关系型数据库，覆盖页式存储、缓存管理、B+ 树索引、WAL、事务隔离、SQL 解析和 C/S 通信。