拷到学校电脑 / 插 PPT 用法(本文件单文件完整,无需 css 文件夹)
  1. 把整个 research-data-pipeline-ppt.html 复制到 U 盘(可单独一个文件夹,勿改名内嵌样式)。
  2. 推荐:答辩时用浏览器打开(双击 → 选 Edge/Chrome)全屏滚动,老师看得最清楚。
  3. 插入 PPT:幻灯片 → 插入 → 文本 → 动作 → 超链接 → 现有文件 → 选本 HTML;放映时点击打开。部分学校版 Office 不支持「插入网页对象」,以浏览器打开为准。
  4. 若 PPT 内网页空白:不要用网站版 research-data-pipeline.html(依赖外部 css),务必用本文件

Research · Data Engineering · Defense

评论数据工程说明

面向方面级情感分析(ABSA)的 BIO 序列标注。Data-Centric 思路:2,226 条双平台原始评论 → 859 银标池 → 427 训练行 + 47 独立外部测试;427 入库后按实体密度 / 置信度再分层。与论文、答辩材料数字一致,全链条可审计。

答辩速答(可先背)

15 秒核心版
我们不是把数据越做越少,而是用多层降噪漏斗,把 2,226 条原始评论提纯成 859 条银标池,再筛成 427 条高信噪比训练样本;同时保留 47 条独立外部测试集,保证质量、泛化与可审计性。
45 秒展开版
流程核心是质量优先。BIO 对边界和实体敏感,所以先双平台降噪,再金标、准金标、银标三层选样。427 条训练集配合 47 条外部测试,既能训模型,也能客观验证泛化。427 之后还按密度再分层,避免低密度样本冲淡高价值标注——手工记录里叫「评论数固定,行数波动」。
若被问「是不是数据太少」:先立住——「BIO 更看重样本质量与边界正确性,不是简单堆数量。」再给漏斗数字与消融实验。

阅读顺序 · 一条主线,两层切分

语料漏斗
质量分层
密度切分
泛化验证
2,226原始评论
859银标池
427训练行
47外部测试

语料:小红书 1,676 + 懂车帝 550(去重合并)。427 行 ≈ 247 条评论(by_comment):评论数相对固定,序列行数随实体跨度波动——BIO 任务正常现象,非数据丢失。

Stage 1 · 原始语料清洗(2,226 → 859)

Stage 2 · 质量分层(859 → 427 行)

在银标池内按实体密度、模型置信度与人工复审选样。BIO 任务中,单条错误标注可干扰边界学习,故采用「高质量子集 + 多样性补充」,而非 859 全量训练。

204金标 Gold
+
132准金标
+
91银标补
=
427训练行
层级行数选样标准(摘要)来源说明
金标 Gold204实体密度 ≥30% 或人工确认V4 遗留 140 + 第三轮复审新增 64
准金标 Quasi-Gold132置信度严格 0.7–0.9银标池中脚本挖掘的边界样本
银标 Silver91一般特征 · 多样性抑制金标过拟合、保留跨平台多样性
合计427约 247 条评论(by_comment);论文与评估口径一致
质量优先:宁可 427 条高信噪比,不要 3000 条半吊子标注。Google、OpenAI、Anthropic 等在指令微调阶段均强调小规模、高质、经策展的数据,而非堆叠原始语料。

Stage 2b · 密度切分(427 内部再分层)

427 是主训练口径,不是一锅平铺。入库后仍按密度/置信度做结构化安排,避免低密度样本在采样与损失权重上稀释高信息样本。

内部分层行数作用(摘要)
密度 ≥ 30%109高实体覆盖,支撑核心方面与边界学习
密度 ≥ 18%39中等密度,衔接高低密度梯度
低密度样本97受控纳入,避免训练分布过于稀疏
准金标(密度视角)163与置信度筛选交叉,覆盖难例与边界
银标(密度视角)92多样性补充,与 Stage 2 银标呼应

注:上表为训练策略视角,与 Stage 2 金/准金/银的来源层级互为补充,共同描述「先选进来,再怎么用」。

关键表述:「评论数固定,行数波动」——同一评论在 BIO 展开后占多行;对外须同时交代 by_comment 与 by_row,避免评委误以为「427 条评论」或数据被悄悄删掉。

Stage 3 · 外部测试 & V6 切分

Stage 3

独立外部测试(47 条)

  • 母池剩余约 336 条(未参与训练)
  • 长度 30–60 字、非纯 O、优先转折词
  • 脚本筛 60 → 人工锁定 47(external_clean)
V6 Split

精编集 550 = 427 + 96 + 27

  • 7:2:1 训练 / 验证 / 内测
  • ≠ 懂车帝原始 550 条
  • 来自 2,226 双平台精炼,不可混谈

论文 vs 答辩 PPT · 数字一致性

关键表述论文答辩 PPT可追溯文件
主声明427 训练 + 47 外部测试同左stage2_train_by_comment_v6.csv
V6 切分550 = 427+96+27数据表427+96+27 = 550 ✓
局限样本量较小等学术诚实

标准答辩问答

Q1:为什么 2,000+ 最后只用 427?数据有问题吗?

A:原始语料 2,200+ 很扎实;BIO 对质量敏感,我们设计了自动化多层降噪与大模型辅评,提纯出 427 条高信噪比训练集,含跨平台特征。消融表明质量优先优于数千条脏数据导致的过拟合。

Q2:为什么懂车帝 550 和 V6 也是 550?

A:初始 550 是单平台(懂车帝)原始语料;V6 的 550 是从 2,226 条双平台混合语料经过去重、标注、置信度过滤后精炼的精编集。数字相同、来源与质量完全不同,体现精炼过程有效,并非只用懂车帝或浪费小红书。

Q3:47 条外部测试怎么来的?

A:从完全未参与训练的数据中,按长度、实体、转折等规则筛出 60 条候选,人工裁决锁定 47 条高难度样本,用于客观评估泛化,而非调参。

Q4:论文和 PPT 数字一致吗?有对数吗?

A:一致。427+96+27=550;关键切分均有 JSON 日志与 CSV 可追溯。

Q5:427 之后为什么还要密度分层?

A:427 是入库总量;训练时仍按密度/置信度安排采样与权重,避免低密度行稀释高信息样本,对应手工记录「评论数固定,行数波动」。

答辩前核对清单

业界对齐与模型指标

Data-Centric AI

Andrew Ng 等强调:迭代重心在数据质量、标注一致性与错误分析,而非一味扩大参数量。本研究漏斗与密度分层是该范式在 ABSA 下的具体化。

大模型微调「策展式」数据

OpenAI、Google、Anthropic 在指令微调与对齐阶段,均公开强调小规模、高质、经人工与自动过滤策展的数据集。

本研究指标(建立在上述管线之上)

答辩现场可展示的核心文件

Henry Lu · 卢鸿璋 · 2026
本文件为答辩单文件完整版 · 无需外部 css/js · 与网站对外说明内容一致