第一层:服务质量指标(用户问题有没有被解决)
| 指标 | 含义 | 计算方式 | 健康值参考 |
|---|
| 问题解决率 | 用户问题被 AI 成功解决的比例 | 总会话数中,未转人工且用户没有重复追问的比例 | > 70% |
| 人工转接率 | 用户放弃 AI、要求转人工的比例 | 触发转人工 / 总会话数 | < 15% |
| 首次解决率(FCR) | 用户一次提问就得到满意答案的比例 | 没有追问的会话 / 总会话数 | > 60% |
| 会话放弃率 | 用户中途离开、没有得到回答 | 未完成会话 / 总会话数 | < 20% |
| 用户满意度(CSAT) | 对话结束后的满意度评分 | 好评数 / 总评价数 | > 4/5 分 |
第二层:知识库健康指标(知识够不够用)
| 指标 | 含义 | 说明 |
|---|
| 知识覆盖率 | 用户问的问题,知识库里有答案的比例 | 拒答率的反面,拒答率长期 > 20% 说明知识库有大盲区 |
| 知识库更新频率 | 平均多久更新一次知识库 | 业务变化快的场景(如电商促销),更新越及时越好 |
| 知识库过期率 | 知识库中内容已过期或失效的比例 | 需要定期人工审核,过期内容会直接导致幻觉 |
| 热门未覆盖问题 Top N | 用户高频提问但知识库没有的问题列表 | 最直接的知识库扩充指引 |
| 文档使用率 | 哪些文档/块从未被召回过 | 长期未被召回的块可能是冗余或质量差,可以清理 |
第三层:系统效率指标(用得顺不顺)
| 指标 | 含义 | 健康值参考 |
|---|
| 平均响应时长 | 从用户提问到 AI 完成回答的时间 | < 3 秒(流式输出首字 < 1 秒) |
| P95 / P99 延迟 | 95% / 99% 的请求在多少时间内完成 | P95 < 5 秒 |
| 系统可用率 | RAG 服务正常运行的时间占比 | > 99.9% |
| 并发处理能力 | 峰值时能同时处理多少路会话 | 根据业务规模定 |
第四层:业务价值指标(有没有带来收益)
这一层是最终老板最关心的,但也是最难归因的:
| 指标 | 含义 | 说明 |
|---|
| 人工客服成本节省 | AI 替代人工的会话数 × 单次人工成本 | 最容易量化 ROI 的指标 |
| 人工坐席效率提升 | 有了 AI 辅助后,人工坐席处理速度提升多少 | 适用于”AI 辅助人工”而非”AI 替代人工”的场景 |
| 用户留存率变化 | 上线 RAG 前后用户留存的变化 | 长期指标,需要排除其他因素干扰 |
| 转化率影响 | 对于电商/SaaS 产品,AI 问答有没有提升转化 | 用 A/B 实验评估 |
各指标之间的关系和常见陷阱
人工转接率低 ≠ 问题解决率高
→ 用户可能是放弃了,直接关掉页面,而不是转人工
→ 要结合"会话放弃率"一起看
拒答率低 ≠ 知识覆盖率高
→ 模型可能在胡乱回答,没有拒答但答的是错的
→ 要结合 Faithfulness 指标一起看
响应速度快 ≠ 用户体验好
→ 如果回答又快又错,用户体验反而更差
→ 速度指标要和满意度指标配合看
建议的监控看板结构
日常运营看板(每天看):
问题解决率、人工转接率、用户满意度、拒答率、平均响应时长
知识库健康(每周看):
热门未覆盖问题 Top 10、知识库过期内容数量、文档更新频率
业务价值(每月看):
人工成本节省、与上月对比的各项指标趋势
技术质量(每次发版看):
Faithfulness、Hit Rate、Context Precision 等 RAGAS 指标
技术指标(RAGAS 那套)是内部研发关注的,产品指标(解决率、转接率)是业务方和 PM 关注的,两套指标都要建,但汇报对象不同。