14 评测、安全与成本
- 理解为什么 AI 应用必须有评测。
- 识别 prompt injection 的基本模式。
- 知道成本和权限边界如何影响架构。
LLM 应用不是“上线后看感觉”。你需要一组固定问题,每次改 prompt、模型、RAG 参数或工具后都跑一遍,确认没有退化。
评测最小闭环:
cases↓answer function↓judge function↓pass/fail report安全最小闭环:
输入检测↓权限分级↓工具参数校验↓输出审计参考项目里的对应实现思路
Section titled “参考项目里的对应实现思路”RAG 和 Agent 框架通常会提供 tracing 或 eval 组件,但最小评测可以先自己写。复杂系统再接 LangSmith、OpenTelemetry 或自建日志平台。
最小代码实验
Section titled “最小代码实验”源码:labs/14-eval-security-cost/index.mjs
这个实验包含两个 case:正常 RAG 问题和一条英文 prompt injection。
运行命令与预期输出
Section titled “运行命令与预期输出”运行:
npm run lab:14预期你会看到每个 case 的 pass/fail。检测规则很粗糙,但能展示安全网应该放在哪里。
- prompt injection 不能只靠“告诉模型不要听”解决。
- 成本不是最后优化项,它会影响上下文长度、重试策略和工具调用次数。
- 没有评测,模型升级可能悄悄破坏已有功能。