跳转到内容

14 评测、安全与成本

  • 理解为什么 AI 应用必须有评测。
  • 识别 prompt injection 的基本模式。
  • 知道成本和权限边界如何影响架构。

LLM 应用不是“上线后看感觉”。你需要一组固定问题,每次改 prompt、模型、RAG 参数或工具后都跑一遍,确认没有退化。

评测最小闭环:

cases
answer function
judge function
pass/fail report

安全最小闭环:

输入检测
权限分级
工具参数校验
输出审计

RAG 和 Agent 框架通常会提供 tracing 或 eval 组件,但最小评测可以先自己写。复杂系统再接 LangSmith、OpenTelemetry 或自建日志平台。

源码:labs/14-eval-security-cost/index.mjs

这个实验包含两个 case:正常 RAG 问题和一条英文 prompt injection。

运行:

Terminal window
npm run lab:14

预期你会看到每个 case 的 pass/fail。检测规则很粗糙,但能展示安全网应该放在哪里。

  • prompt injection 不能只靠“告诉模型不要听”解决。
  • 成本不是最后优化项,它会影响上下文长度、重试策略和工具调用次数。
  • 没有评测,模型升级可能悄悄破坏已有功能。