RAGAI学习笔记

RAG 产品层面指标

May 27, 2026

第一层：服务质量指标（用户问题有没有被解决）

指标	含义	计算方式	健康值参考
问题解决率	用户问题被 AI 成功解决的比例	总会话数中，未转人工且用户没有重复追问的比例	> 70%
人工转接率	用户放弃 AI、要求转人工的比例	触发转人工 / 总会话数	< 15%
首次解决率（FCR）	用户一次提问就得到满意答案的比例	没有追问的会话 / 总会话数	> 60%
会话放弃率	用户中途离开、没有得到回答	未完成会话 / 总会话数	< 20%
用户满意度（CSAT）	对话结束后的满意度评分	好评数 / 总评价数	> 4/5 分

第二层：知识库健康指标（知识够不够用）

指标	含义	说明
知识覆盖率	用户问的问题，知识库里有答案的比例	拒答率的反面，拒答率长期 > 20% 说明知识库有大盲区
知识库更新频率	平均多久更新一次知识库	业务变化快的场景（如电商促销），更新越及时越好
知识库过期率	知识库中内容已过期或失效的比例	需要定期人工审核，过期内容会直接导致幻觉
热门未覆盖问题 Top N	用户高频提问但知识库没有的问题列表	最直接的知识库扩充指引
文档使用率	哪些文档/块从未被召回过	长期未被召回的块可能是冗余或质量差，可以清理

第三层：系统效率指标（用得顺不顺）

指标	含义	健康值参考
平均响应时长	从用户提问到 AI 完成回答的时间	< 3 秒（流式输出首字 < 1 秒）
P95 / P99 延迟	95% / 99% 的请求在多少时间内完成	P95 < 5 秒
系统可用率	RAG 服务正常运行的时间占比	> 99.9%
并发处理能力	峰值时能同时处理多少路会话	根据业务规模定

第四层：业务价值指标（有没有带来收益）

这一层是最终老板最关心的，但也是最难归因的：

指标	含义	说明
人工客服成本节省	AI 替代人工的会话数 × 单次人工成本	最容易量化 ROI 的指标
人工坐席效率提升	有了 AI 辅助后，人工坐席处理速度提升多少	适用于”AI 辅助人工”而非”AI 替代人工”的场景
用户留存率变化	上线 RAG 前后用户留存的变化	长期指标，需要排除其他因素干扰
转化率影响	对于电商/SaaS 产品，AI 问答有没有提升转化	用 A/B 实验评估

各指标之间的关系和常见陷阱

人工转接率低 ≠ 问题解决率高

→ 用户可能是放弃了，直接关掉页面，而不是转人工

→ 要结合"会话放弃率"一起看

拒答率低 ≠ 知识覆盖率高

→ 模型可能在胡乱回答，没有拒答但答的是错的

→ 要结合 Faithfulness 指标一起看

响应速度快 ≠ 用户体验好

→ 如果回答又快又错，用户体验反而更差

→ 速度指标要和满意度指标配合看

建议的监控看板结构

日常运营看板（每天看）：

问题解决率、人工转接率、用户满意度、拒答率、平均响应时长

知识库健康（每周看）：

热门未覆盖问题 Top 10、知识库过期内容数量、文档更新频率

业务价值（每月看）：

人工成本节省、与上月对比的各项指标趋势

技术质量（每次发版看）：

Faithfulness、Hit Rate、Context Precision 等 RAGAS 指标

技术指标（RAGAS 那套）是内部研发关注的，产品指标（解决率、转接率）是业务方和 PM 关注的，两套指标都要建，但汇报对象不同。

需要密钥才能查看

第一层：服务质量指标（用户问题有没有被解决）

第二层：知识库健康指标（知识够不够用）

第三层：系统效率指标（用得顺不顺）

第四层：业务价值指标（有没有带来收益）

各指标之间的关系和常见陷阱

建议的监控看板结构