把 AI Agent 做成稳定、可评测、可维护的工程系统

我是单文杰，东南大学电子信息硕士在读，目前在同花顺 NLP 部门参与 AI Agent 工程化项目。
这里记录我在评测平台、Agent CLI 记忆系统、RAG 和数据库内核项目里的设计细节。
我更关注系统能不能被复现、被测试、被追踪，也能不能在复杂业务里长期维护。

通用AI评估和计量引擎

面向内部金融大模型、通用 LLM 和通用 Agent Benchmark 的配置驱动评测平台，覆盖模型评测、预测类概率评测、代码修复型 Agent 和多轮对话 Agent。

Java Agent CLI 中的记忆系统与上下文工程模块，支持短期对话记忆、长期事实记忆、项目级作用域、检索注入和上下文压缩。

企业级 RAG 智能知识库平台，覆盖多格式文档解析、异步入库、混合检索、权限控制和 AI 流式问答。

从零实现的轻量级关系型数据库，覆盖页式存储、缓存管理、B+ 树索引、WAL、事务隔离、SQL 解析和 C/S 通信。