0%

《FQ-Eval Building Evaluation Dataset for User-centered Follow-up Question Generation》

FQ-Eval 这是一篇关于对话中的 Follow ups questions 的论文。

一、论文基本信息

报告基本信息

论文标题

FQ-Eval: Building Evaluation Dataset for User-centered Follow-up Question Generation

发表会议

2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025) Industry Track

论文地址

https://aclanthology.org/2025.emnlp-industry.188.pdf

开源地址

https://github.com/LGAI-Research/FQ-Eval

二、研究背景与问题提出

2.1 研究背景

随着 ChatGPT、Copilot、Perplexity 等对话式 LLM 服务的规模化落地,后续问题生成(Follow-up Question Generation) 已成为提升用户体验的核心功能:

  1. 大量用户难以清晰、完整地向 LLM 表达自身潜在意图与对话目标,模糊查询易导致对话偏离用户初衷,显著降低使用满意度;
  2. 高质量的后续问题可降低用户持续交互的门槛,引导用户深化对话、达成核心目标,直接影响商用 LLM 产品的用户留存与活跃度。

2.2 现有研究的核心缺陷

现有后续问题生成相关研究存在三大关键短板,无法适配真实商用 LLM 场景的需求:

  1. 评估维度严重片面:绝大多数研究仅聚焦于「信息检索能力」「主题相关性」两个维度,完全忽视了后续问题对用户内在需求的满足、对用户对话目标的支撑,生成的问题与用户真实预期严重脱节;
  2. 缺乏标准化评估框架:领域内尚无统一、可复现的用户中心式评估方法,不同研究的评估指标、数据集差异极大,无法横向对比模型性能;
  3. 数据集与真实场景脱节:现有主流数据集(如 FQ-Bank、FollowupQG)多基于合成文本、社交平台非正式对话构建,无法反映商用 LLM 服务中用户的真实使用场景与交互模式。

2.3 核心研究问题

如何构建一套贴合真实商用 LLM 使用场景、以用户为中心的后续问题生成评估体系,包括标准化的评估准则、高质量的评估数据集,以及可复现的评估方法,全面衡量后续问题对用户的真实价值。

三、核心研究内容:任务定义与评估准则

3.1 任务形式化定义

论文首次正式定义了商用 LLM 场景下的后续问题生成任务与评估任务,明确了任务边界:

  1. 生成任务:给定单轮用户问题 $q \in Q$ 与对应 LLM 回答 $a \in A$ ,通过生成函数 $F$ 输出有价值的后续问题 $f$,即:$f=F(q,a), F:Q \times A \to F$
  2. 评估任务:分为两种可互补的范式
  • 相对评估(n-way 选择):给定 QA 对、评估准则与多个候选后续问题,评估函数 $E$ 选出最符合准则的最优问题;
  • 绝对评估(分数制):给定 QA 对、评估准则与单个候选后续问题,评估函数 $E$ 输出 1-5 分的质量评分,分数越高代表与准则的对齐度越好。

3.2 五大用户对齐评估准则(核心创新)

论文通过三阶段用户研究(半结构化访谈→焦点小组讨论→亲和图分析),招募 9 名有丰富 LLM 使用经验、覆盖教育 / 设计 / 编程 / 产品等多元背景的参与者,最终提炼出 5 个完全贴合用户真实预期的评估准则,彻底突破了现有研究仅关注相关性的局限。

准则编号 准则名称 核心定义 关键评估维度 论文示例(恐龙睡前故事场景)
C1 探索范围(Exploratory Scope) 评估后续问题能否拓宽、深化用户与 LLM 的对话,引导用户发现被忽略的视角与子话题 多视角探究、相关概念引入、深度细分挖掘、话题范围精细化 How can I make the bedtime story more interactive so my child can participate as we read?
C2 语境相关性(Contextual Relevance) 评估后续问题能否与前文对话、用户原始意图保持一致,避免话题偏离 话题连续性、用户意图对齐、核心焦点保持、上下文承接 How can I use ideas from the story, like counting stars or listening to crickets, to help my child fall asleep?
C3 创意跳跃(Creative Leap) 评估后续问题能否突破常规框架,激发用户的原创思考、意外洞见与想象力探索 新颖视角、跨领域关联、想象力引导、交互趣味性提升 Can you tell a bedtime story where a dinosaur and a dragon become best friends and share an adventure?
C4 LLM 赋能(LLM Enablement) 评估后续问题能否引导用户充分利用 LLM 的多元能力,掌握更高效的交互方法 LLM 功能展示、具体使用场景示例、提示词优化引导、高阶用法挖掘 How can I adapt AI-generated stories to be appropriate for both younger and slightly older kids?
C5 引导入门(Guided Onboarding) 评估后续问题能否帮助用户快速开启新主题、陌生领域的探索,降低入门门槛 核心概念高亮、入门关键词推荐、探索路径指引、基础背景补充 What are some age-appropriate adventure themes for bedtime stories for 5-year-olds?

四、FQ-Eval 数据集构建

论文构建的 FQ-Eval 是领域内首个基于真实生成式 AI 使用场景、以用户为中心的后续问题生成评估数据集,构建流程全程遵循「真实场景锚定 - 人工精制校准 - 多轮质量管控」原则,确保数据集的可靠性与代表性。

4.1 数据集整体规模

  • 核心单元:200 个单轮 QA 对,覆盖 6 大真实生成式 AI 使用类别;
  • 标注内容:1000 个人工精制的后续问题,每个 QA 对对应 5 个问题,分别与 5 大评估准则一一对应;
  • 对话类型:单轮对话式 QA,适配商用 LLM 的主流交互场景。

4.2 分阶段构建流程

阶段 1:种子 QA 对生成(真实场景锚定)

  1. 场景来源:基于哈佛商业评论(HBR)2025 年发布的《生成式 AI 真实使用报告》,覆盖 100 个真实用户生成式 AI 使用场景,分为内容创作、创意娱乐、学习教育、个人 / 职业支持、研究分析、技术支持 6 大类别;
  2. 候选生成:为每个场景设计简单、复杂 2 个难度等级,通过 GPT-4.1 为每个难度生成 5 个候选用户问题,总计 1000 个候选种子问题;
  3. 人工筛选修订:3 名训练有素的标注员独立评估,从每个难度的 5 个候选中选出 1 个最贴合真实用户语言习惯、场景对齐度最高的问题,最终形成 200 个高质量种子问题;
  4. 回答生成与质检:通过 GPT-4.1 为每个种子问题生成对应回答,标注员审核回答的上下文连贯性与完整性,形成最终的 200 个 QA 对。

阶段 2:后续问题筛选与精制(准则对齐)

  1. 候选生成:针对每个 QA 对 + 每个评估准则,通过 GPT-4.1 生成 8 个严格贴合准则定义的候选后续问题,每个 QA 对总计生成 40 个候选;
  2. 人工筛选与修订:7 名专业标注员(6 名英语母语者 + 1 名双语专家)独立完成两项工作:
    • 筛选:从每个准则的 8 个候选中,选出最能体现该准则核心特征的 1 个问题;
    • 修订:优化选中问题的准则对齐度、上下文连贯性与语言质量,保留核心语义不变;
  3. 质量管控:通过 GPT-4.1 对所有最终问题进行自动打分,得分低于 2 分的问题触发人工复检与重标注,确保所有问题与准则的高度对齐。

4.3 与现有主流数据集的对比

核心属性 FQ-Bank FollowupQG FQ-Eval(本文)
对话类型 多轮 单轮 单轮
QA 对数量 2132 501 200
后续问题数量 2132 501 1000
领域 基于篇章的 QA 社交 QA 对话式 QA
数据来源 OrQuAC 合成语料 Reddit 社交平台 HBR 真实生成式 AI 使用场景
核心特征 合成 / 人工设计 非正式口语化 真实场景、用户中心、准则对齐

五、实验设计与核心结果

论文通过多组互补实验,全面验证了 FQ-Eval 数据集的有效性、评估框架的可靠性,同时揭示了当前主流 LLM 在后续问题生成上的核心短板。

5.1 实验基础设置

  1. 评估范式:采用「n-way 选择任务 + 分数制评估任务」双范式,确保评估结果的全面性;
  2. 评估器设置
    • 主力评估器:GPT-4.1(temperature=0.0,贪心解码,确保结果可复现);
    • 金标准验证:独立人类标注员盲测,与数据集构建阶段的标注员完全隔离,避免偏见;
    • 鲁棒性验证:额外采用 Claude Opus 4、Mistral Large、Gemini 2.5 Flash 作为备选评估器;
  3. 对比模型:覆盖 OpenAI、Anthropic、Mistral、Google 四大厂商的 12 款主流 LLM,包含旗舰大模型与中小尺寸模型;
  4. 工业场景验证:对商用产品 Perplexity 的后续问题生成能力进行实测评估。

5.2 核心实验结果

实验 1:5-way 选择任务(核心验证实验)

实验设置:对每个 QA 对 + 每个准则,构建 5 候选池(1 个 FQ-Eval 基准问题 + 4 款旗舰 LLM 生成的问题),评估者在盲测环境下选出最符合准则的问题,统计各候选的选择率。

核心结果

  1. FQ-Eval 在 5 个准则上的平均选择率显著高于所有主流 LLM,在创意跳跃维度,LLM-judge 选择率 99.5%、人类选择率 92%,几乎碾压所有对比模型;
  2. 引导入门、LLM 赋能、探索范围三个维度,FQ-Eval 的 LLM-judge 选择率均超过 79%,大幅领先对比模型;
  3. 仅在语境相关性维度,Claude Opus 4 等旗舰模型展现出竞争力(人类选择率 28.5%,略高于 FQ-Eval 的 24%),验证了现有 LLM 仅在相关性维度有成熟能力,与论文的核心假设一致。

实验 2:2-way 两两对比任务(全模型覆盖)

实验设置:对每个 QA 对 + 每个准则,构建 2 候选池(1 个 FQ-Eval 基准问题 + 1 款待评估 LLM 生成的问题),评估者二选一,统计 FQ-Eval 的胜率。

核心结果

  1. FQ-Eval 在 12 款 LLM 的全量对比中,平均胜率达 86.4%,在所有准则上均占据绝对优势;
  2. 创意跳跃维度,FQ-Eval 对所有模型的胜率均超过 99%,证明当前主流 LLM 完全无法生成符合用户预期的高创意性后续问题;
  3. 同厂商内的中小尺寸模型,在部分准则上的表现优于旗舰大模型,核心原因是中小模型的输出更简洁,更适配简单场景的用户需求;
  4. 随着用户问题复杂度提升,FQ-Eval 的胜率略有下降,说明旗舰大模型在高复杂度场景下能更好地发挥能力。

实验 3:分数制绝对评估任务

实验设置:对每个候选后续问题,基于 5 大准则进行 1-5 分的独立绝对评分,分数越高代表质量越好。

核心结果(平均分)

模型 C1 探索范围 C2 语境相关性 C3 创意跳跃 C4 LLM 赋能 C5 引导入门
FQ-Eval 4.04 4.96 4.35 4.21 4.24
GPT-4.1 3.23 4.88 1.97 3.28 3.13
Claude Opus 4 3.53 4.97 2.00 3.40 3.26
Mistral Large 3.45 4.75 2.01 3.05 3.16
Gemini 2.5 Flash 3.18 4.86 1.92 3.13 3.08

关键结论:

  • FQ-Eval 在所有 5 个准则上的平均分均高于主流旗舰 LLM,总分领先幅度显著;
  • 语境相关性维度,FQ-Eval 与 Claude Opus 4 几乎持平,再次验证现有模型在该维度的成熟度;
  • 创意跳跃维度,FQ-Eval 平均分是对比模型的 2 倍以上,差距极为显著。

实验 4:真实商用服务评估

核心发现:Perplexity 的后续问题仅在信息检索相关的探索范围、语境相关性维度表现尚可,但在LLM 赋能、引导入门、创意跳跃三个维度表现极差,与 FQ-Eval 的基准水平差距显著。证明 FQ-Eval 可直接用于商用产品的能力诊断,帮助开发者定位优化方向,平衡产品的质量、成本与延迟。

5.3 鲁棒性验证

  1. LLM-judge 一致性:4 款不同厂商的 LLM 作为评估器时,两两之间的皮尔逊相关系数均 > 0.8(p<0.001),整体评分相邻一致性(分差≤1 分)达 97.2%,证明评估结果稳定可靠,无系统性偏差;
  2. 人类与 LLM-judge 对齐性:人类标注结果与 GPT-4.1 的评估结果高度一致,无显著差异,证明 LLM-judge 的自动化评估完全贴合人类真实偏好;
  3. 循环性偏见规避:针对 “GPT-4.1 同时参与数据集构建与评估” 的潜在偏见,论文通过人工修订消除模型风格偏差、人类评估对齐、多模型交叉验证三种方式,证明结果无循环性偏见。