FQ-Eval 这是一篇关于对话中的 Follow ups questions 的论文。
一、论文基本信息
报告基本信息
论文标题
FQ-Eval: Building Evaluation Dataset for User-centered Follow-up Question Generation
发表会议
2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025) Industry Track
论文地址
https://aclanthology.org/2025.emnlp-industry.188.pdf
开源地址
https://github.com/LGAI-Research/FQ-Eval
二、研究背景与问题提出
2.1 研究背景
随着 ChatGPT、Copilot、Perplexity 等对话式 LLM 服务的规模化落地,后续问题生成(Follow-up Question Generation) 已成为提升用户体验的核心功能:
- 大量用户难以清晰、完整地向 LLM 表达自身潜在意图与对话目标,模糊查询易导致对话偏离用户初衷,显著降低使用满意度;
- 高质量的后续问题可降低用户持续交互的门槛,引导用户深化对话、达成核心目标,直接影响商用 LLM 产品的用户留存与活跃度。
2.2 现有研究的核心缺陷
现有后续问题生成相关研究存在三大关键短板,无法适配真实商用 LLM 场景的需求:
- 评估维度严重片面:绝大多数研究仅聚焦于「信息检索能力」「主题相关性」两个维度,完全忽视了后续问题对用户内在需求的满足、对用户对话目标的支撑,生成的问题与用户真实预期严重脱节;
- 缺乏标准化评估框架:领域内尚无统一、可复现的用户中心式评估方法,不同研究的评估指标、数据集差异极大,无法横向对比模型性能;
- 数据集与真实场景脱节:现有主流数据集(如 FQ-Bank、FollowupQG)多基于合成文本、社交平台非正式对话构建,无法反映商用 LLM 服务中用户的真实使用场景与交互模式。
2.3 核心研究问题
如何构建一套贴合真实商用 LLM 使用场景、以用户为中心的后续问题生成评估体系,包括标准化的评估准则、高质量的评估数据集,以及可复现的评估方法,全面衡量后续问题对用户的真实价值。
三、核心研究内容:任务定义与评估准则
3.1 任务形式化定义
论文首次正式定义了商用 LLM 场景下的后续问题生成任务与评估任务,明确了任务边界:
- 生成任务:给定单轮用户问题 $q \in Q$ 与对应 LLM 回答 $a \in A$ ,通过生成函数 $F$ 输出有价值的后续问题 $f$,即:$f=F(q,a), F:Q \times A \to F$
- 评估任务:分为两种可互补的范式
- 相对评估(n-way 选择):给定 QA 对、评估准则与多个候选后续问题,评估函数 $E$ 选出最符合准则的最优问题;
- 绝对评估(分数制):给定 QA 对、评估准则与单个候选后续问题,评估函数 $E$ 输出 1-5 分的质量评分,分数越高代表与准则的对齐度越好。
3.2 五大用户对齐评估准则(核心创新)
论文通过三阶段用户研究(半结构化访谈→焦点小组讨论→亲和图分析),招募 9 名有丰富 LLM 使用经验、覆盖教育 / 设计 / 编程 / 产品等多元背景的参与者,最终提炼出 5 个完全贴合用户真实预期的评估准则,彻底突破了现有研究仅关注相关性的局限。
| 准则编号 | 准则名称 | 核心定义 | 关键评估维度 | 论文示例(恐龙睡前故事场景) |
|---|---|---|---|---|
| C1 | 探索范围(Exploratory Scope) | 评估后续问题能否拓宽、深化用户与 LLM 的对话,引导用户发现被忽略的视角与子话题 | 多视角探究、相关概念引入、深度细分挖掘、话题范围精细化 | How can I make the bedtime story more interactive so my child can participate as we read? |
| C2 | 语境相关性(Contextual Relevance) | 评估后续问题能否与前文对话、用户原始意图保持一致,避免话题偏离 | 话题连续性、用户意图对齐、核心焦点保持、上下文承接 | How can I use ideas from the story, like counting stars or listening to crickets, to help my child fall asleep? |
| C3 | 创意跳跃(Creative Leap) | 评估后续问题能否突破常规框架,激发用户的原创思考、意外洞见与想象力探索 | 新颖视角、跨领域关联、想象力引导、交互趣味性提升 | Can you tell a bedtime story where a dinosaur and a dragon become best friends and share an adventure? |
| C4 | LLM 赋能(LLM Enablement) | 评估后续问题能否引导用户充分利用 LLM 的多元能力,掌握更高效的交互方法 | LLM 功能展示、具体使用场景示例、提示词优化引导、高阶用法挖掘 | How can I adapt AI-generated stories to be appropriate for both younger and slightly older kids? |
| C5 | 引导入门(Guided Onboarding) | 评估后续问题能否帮助用户快速开启新主题、陌生领域的探索,降低入门门槛 | 核心概念高亮、入门关键词推荐、探索路径指引、基础背景补充 | What are some age-appropriate adventure themes for bedtime stories for 5-year-olds? |
四、FQ-Eval 数据集构建
论文构建的 FQ-Eval 是领域内首个基于真实生成式 AI 使用场景、以用户为中心的后续问题生成评估数据集,构建流程全程遵循「真实场景锚定 - 人工精制校准 - 多轮质量管控」原则,确保数据集的可靠性与代表性。
4.1 数据集整体规模
- 核心单元:200 个单轮 QA 对,覆盖 6 大真实生成式 AI 使用类别;
- 标注内容:1000 个人工精制的后续问题,每个 QA 对对应 5 个问题,分别与 5 大评估准则一一对应;
- 对话类型:单轮对话式 QA,适配商用 LLM 的主流交互场景。
4.2 分阶段构建流程
阶段 1:种子 QA 对生成(真实场景锚定)
- 场景来源:基于哈佛商业评论(HBR)2025 年发布的《生成式 AI 真实使用报告》,覆盖 100 个真实用户生成式 AI 使用场景,分为内容创作、创意娱乐、学习教育、个人 / 职业支持、研究分析、技术支持 6 大类别;
- 候选生成:为每个场景设计简单、复杂 2 个难度等级,通过 GPT-4.1 为每个难度生成 5 个候选用户问题,总计 1000 个候选种子问题;
- 人工筛选修订:3 名训练有素的标注员独立评估,从每个难度的 5 个候选中选出 1 个最贴合真实用户语言习惯、场景对齐度最高的问题,最终形成 200 个高质量种子问题;
- 回答生成与质检:通过 GPT-4.1 为每个种子问题生成对应回答,标注员审核回答的上下文连贯性与完整性,形成最终的 200 个 QA 对。
阶段 2:后续问题筛选与精制(准则对齐)
- 候选生成:针对每个 QA 对 + 每个评估准则,通过 GPT-4.1 生成 8 个严格贴合准则定义的候选后续问题,每个 QA 对总计生成 40 个候选;
- 人工筛选与修订:7 名专业标注员(6 名英语母语者 + 1 名双语专家)独立完成两项工作:
- 筛选:从每个准则的 8 个候选中,选出最能体现该准则核心特征的 1 个问题;
- 修订:优化选中问题的准则对齐度、上下文连贯性与语言质量,保留核心语义不变;
- 质量管控:通过 GPT-4.1 对所有最终问题进行自动打分,得分低于 2 分的问题触发人工复检与重标注,确保所有问题与准则的高度对齐。
4.3 与现有主流数据集的对比
| 核心属性 | FQ-Bank | FollowupQG | FQ-Eval(本文) |
|---|---|---|---|
| 对话类型 | 多轮 | 单轮 | 单轮 |
| QA 对数量 | 2132 | 501 | 200 |
| 后续问题数量 | 2132 | 501 | 1000 |
| 领域 | 基于篇章的 QA | 社交 QA | 对话式 QA |
| 数据来源 | OrQuAC 合成语料 | Reddit 社交平台 | HBR 真实生成式 AI 使用场景 |
| 核心特征 | 合成 / 人工设计 | 非正式口语化 | 真实场景、用户中心、准则对齐 |
五、实验设计与核心结果
论文通过多组互补实验,全面验证了 FQ-Eval 数据集的有效性、评估框架的可靠性,同时揭示了当前主流 LLM 在后续问题生成上的核心短板。
5.1 实验基础设置
- 评估范式:采用「n-way 选择任务 + 分数制评估任务」双范式,确保评估结果的全面性;
- 评估器设置:
- 主力评估器:GPT-4.1(temperature=0.0,贪心解码,确保结果可复现);
- 金标准验证:独立人类标注员盲测,与数据集构建阶段的标注员完全隔离,避免偏见;
- 鲁棒性验证:额外采用 Claude Opus 4、Mistral Large、Gemini 2.5 Flash 作为备选评估器;
- 对比模型:覆盖 OpenAI、Anthropic、Mistral、Google 四大厂商的 12 款主流 LLM,包含旗舰大模型与中小尺寸模型;
- 工业场景验证:对商用产品 Perplexity 的后续问题生成能力进行实测评估。
5.2 核心实验结果
实验 1:5-way 选择任务(核心验证实验)
实验设置:对每个 QA 对 + 每个准则,构建 5 候选池(1 个 FQ-Eval 基准问题 + 4 款旗舰 LLM 生成的问题),评估者在盲测环境下选出最符合准则的问题,统计各候选的选择率。
核心结果:
- FQ-Eval 在 5 个准则上的平均选择率显著高于所有主流 LLM,在创意跳跃维度,LLM-judge 选择率 99.5%、人类选择率 92%,几乎碾压所有对比模型;
- 在引导入门、LLM 赋能、探索范围三个维度,FQ-Eval 的 LLM-judge 选择率均超过 79%,大幅领先对比模型;
- 仅在语境相关性维度,Claude Opus 4 等旗舰模型展现出竞争力(人类选择率 28.5%,略高于 FQ-Eval 的 24%),验证了现有 LLM 仅在相关性维度有成熟能力,与论文的核心假设一致。
实验 2:2-way 两两对比任务(全模型覆盖)
实验设置:对每个 QA 对 + 每个准则,构建 2 候选池(1 个 FQ-Eval 基准问题 + 1 款待评估 LLM 生成的问题),评估者二选一,统计 FQ-Eval 的胜率。
核心结果:
- FQ-Eval 在 12 款 LLM 的全量对比中,平均胜率达 86.4%,在所有准则上均占据绝对优势;
- 在创意跳跃维度,FQ-Eval 对所有模型的胜率均超过 99%,证明当前主流 LLM 完全无法生成符合用户预期的高创意性后续问题;
- 同厂商内的中小尺寸模型,在部分准则上的表现优于旗舰大模型,核心原因是中小模型的输出更简洁,更适配简单场景的用户需求;
- 随着用户问题复杂度提升,FQ-Eval 的胜率略有下降,说明旗舰大模型在高复杂度场景下能更好地发挥能力。
实验 3:分数制绝对评估任务
实验设置:对每个候选后续问题,基于 5 大准则进行 1-5 分的独立绝对评分,分数越高代表质量越好。
核心结果(平均分):
| 模型 | C1 探索范围 | C2 语境相关性 | C3 创意跳跃 | C4 LLM 赋能 | C5 引导入门 |
|---|---|---|---|---|---|
| FQ-Eval | 4.04 | 4.96 | 4.35 | 4.21 | 4.24 |
| GPT-4.1 | 3.23 | 4.88 | 1.97 | 3.28 | 3.13 |
| Claude Opus 4 | 3.53 | 4.97 | 2.00 | 3.40 | 3.26 |
| Mistral Large | 3.45 | 4.75 | 2.01 | 3.05 | 3.16 |
| Gemini 2.5 Flash | 3.18 | 4.86 | 1.92 | 3.13 | 3.08 |
关键结论:
- FQ-Eval 在所有 5 个准则上的平均分均高于主流旗舰 LLM,总分领先幅度显著;
- 语境相关性维度,FQ-Eval 与 Claude Opus 4 几乎持平,再次验证现有模型在该维度的成熟度;
- 创意跳跃维度,FQ-Eval 平均分是对比模型的 2 倍以上,差距极为显著。
实验 4:真实商用服务评估
核心发现:Perplexity 的后续问题仅在信息检索相关的探索范围、语境相关性维度表现尚可,但在LLM 赋能、引导入门、创意跳跃三个维度表现极差,与 FQ-Eval 的基准水平差距显著。证明 FQ-Eval 可直接用于商用产品的能力诊断,帮助开发者定位优化方向,平衡产品的质量、成本与延迟。
5.3 鲁棒性验证
- LLM-judge 一致性:4 款不同厂商的 LLM 作为评估器时,两两之间的皮尔逊相关系数均 > 0.8(p<0.001),整体评分相邻一致性(分差≤1 分)达 97.2%,证明评估结果稳定可靠,无系统性偏差;
- 人类与 LLM-judge 对齐性:人类标注结果与 GPT-4.1 的评估结果高度一致,无显著差异,证明 LLM-judge 的自动化评估完全贴合人类真实偏好;
- 循环性偏见规避:针对 “GPT-4.1 同时参与数据集构建与评估” 的潜在偏见,论文通过人工修订消除模型风格偏差、人类评估对齐、多模型交叉验证三种方式,证明结果无循环性偏见。