14 评测、安全与成本

学习目标

LLM 应用不是“上线后看感觉”。你需要一组固定问题，每次改 prompt、模型、RAG 参数或工具后都跑一遍，确认没有退化。

评测最小闭环：

cases
↓
answer function
↓
judge function
↓
pass/fail report

安全最小闭环：

输入检测
↓
权限分级
↓
工具参数校验
↓
输出审计

RAG 和 Agent 框架通常会提供 tracing 或 eval 组件，但最小评测可以先自己写。复杂系统再接 LangSmith、OpenTelemetry 或自建日志平台。

这个实验包含两个 case：正常 RAG 问题和一条英文 prompt injection。

运行：

npm run lab:14

预期你会看到每个 case 的 pass/fail。检测规则很粗糙，但能展示安全网应该放在哪里。