拷到学校电脑 / 插 PPT 用法（本文件单文件完整，无需 css 文件夹）

把整个 research-data-pipeline-ppt.html 复制到 U 盘（可单独一个文件夹，勿改名内嵌样式）。
推荐：答辩时用浏览器打开（双击 → 选 Edge/Chrome）全屏滚动，老师看得最清楚。
插入 PPT：幻灯片 → 插入 → 文本 → 动作 → 超链接 → 现有文件 → 选本 HTML；放映时点击打开。部分学校版 Office 不支持「插入网页对象」，以浏览器打开为准。
若 PPT 内网页空白：不要用网站版 research-data-pipeline.html（依赖外部 css），务必用本文件。

Research · Data Engineering · Defense

评论数据工程说明

面向方面级情感分析（ABSA）的 BIO 序列标注。Data-Centric 思路：2,226 条双平台原始评论 → 859 银标池 → 427 训练行 + 47 独立外部测试；427 入库后按实体密度 / 置信度再分层。与论文、答辩材料数字一致，全链条可审计。

答辩速答（可先背）

15 秒核心版
我们不是把数据越做越少，而是用多层降噪漏斗，把 2,226 条原始评论提纯成 859 条银标池，再筛成 427 条高信噪比训练样本；同时保留 47 条独立外部测试集，保证质量、泛化与可审计性。

45 秒展开版
流程核心是质量优先。BIO 对边界和实体敏感，所以先双平台降噪，再金标、准金标、银标三层选样。427 条训练集配合 47 条外部测试，既能训模型，也能客观验证泛化。427 之后还按密度再分层，避免低密度样本冲淡高价值标注——手工记录里叫「评论数固定，行数波动」。

若被问「是不是数据太少」：先立住——「BIO 更看重样本质量与边界正确性，不是简单堆数量。」再给漏斗数字与消融实验。

阅读顺序 · 一条主线，两层切分

①语料漏斗

②质量分层

③密度切分

④泛化验证

2,226原始评论

→

859银标池

→

427训练行

∥

47外部测试

语料：小红书 1,676 + 懂车帝 550（去重合并）。427 行 ≈ 247 条评论（by_comment）：评论数相对固定，序列行数随实体跨度波动——BIO 任务正常现象，非数据丢失。

Stage 1 · 原始语料清洗（2,226 → 859）

合并去重后，结合大模型（GLM-4）辅助初标与规则过滤
剔除无实体、无有效评价的低信息样本
关注信息密度与实体覆盖率
产出：859 条银标池（Silver Pool）；后续样本均由此派生；保留 JSON/CSV 日志

Stage 2 · 质量分层（859 → 427 行）

在银标池内按实体密度、模型置信度与人工复审选样。BIO 任务中，单条错误标注可干扰边界学习，故采用「高质量子集 + 多样性补充」，而非 859 全量训练。

204金标 Gold

132准金标

91银标补

427训练行

层级	行数	选样标准（摘要）	来源说明
金标 Gold	204	实体密度 ≥30% 或人工确认	V4 遗留 140 + 第三轮复审新增 64
准金标 Quasi-Gold	132	置信度严格 0.7–0.9	银标池中脚本挖掘的边界样本
银标 Silver	91	一般特征 · 多样性	抑制金标过拟合、保留跨平台多样性
合计	427	约 247 条评论（by_comment）；论文与评估口径一致

质量优先：宁可 427 条高信噪比，不要 3000 条半吊子标注。Google、OpenAI、Anthropic 等在指令微调阶段均强调小规模、高质、经策展的数据，而非堆叠原始语料。

Stage 2b · 密度切分（427 内部再分层）

427 是主训练口径，不是一锅平铺。入库后仍按密度/置信度做结构化安排，避免低密度样本在采样与损失权重上稀释高信息样本。

内部分层	行数	作用（摘要）
密度 ≥ 30%	109	高实体覆盖，支撑核心方面与边界学习
密度 ≥ 18%	39	中等密度，衔接高低密度梯度
低密度样本	97	受控纳入，避免训练分布过于稀疏
准金标（密度视角）	163	与置信度筛选交叉，覆盖难例与边界
银标（密度视角）	92	多样性补充，与 Stage 2 银标呼应

注：上表为训练策略视角，与 Stage 2 金/准金/银的来源层级互为补充，共同描述「先选进来，再怎么用」。

关键表述：「评论数固定，行数波动」——同一评论在 BIO 展开后占多行；对外须同时交代 by_comment 与 by_row，避免评委误以为「427 条评论」或数据被悄悄删掉。

Stage 3 · 外部测试 & V6 切分

Stage 3

独立外部测试（47 条）

母池剩余约 336 条（未参与训练）
长度 30–60 字、非纯 O、优先转折词
脚本筛 60 → 人工锁定 47（external_clean）

V6 Split

精编集 550 = 427 + 96 + 27

7:2:1 训练 / 验证 / 内测
≠ 懂车帝原始 550 条
来自 2,226 双平台精炼，不可混谈

论文 vs 答辩 PPT · 数字一致性

关键表述	论文	答辩 PPT	可追溯文件
主声明	427 训练 + 47 外部测试	同左	`stage2_train_by_comment_v6.csv`
V6 切分	550 = 427+96+27	数据表	427+96+27 = 550 ✓
局限	—	样本量较小等	学术诚实

标准答辩问答

Q1：为什么 2,000+ 最后只用 427？数据有问题吗？

A：原始语料 2,200+ 很扎实；BIO 对质量敏感，我们设计了自动化多层降噪与大模型辅评，提纯出 427 条高信噪比训练集，含跨平台特征。消融表明质量优先优于数千条脏数据导致的过拟合。

Q2：为什么懂车帝 550 和 V6 也是 550？

A：初始 550 是单平台（懂车帝）原始语料；V6 的 550 是从 2,226 条双平台混合语料经过去重、标注、置信度过滤后精炼的精编集。数字相同、来源与质量完全不同，体现精炼过程有效，并非只用懂车帝或浪费小红书。

Q3：47 条外部测试怎么来的？

A：从完全未参与训练的数据中，按长度、实体、转折等规则筛出 60 条候选，人工裁决锁定 47 条高难度样本，用于客观评估泛化，而非调参。

Q4：论文和 PPT 数字一致吗？有对数吗？

A：一致。427+96+27=550；关键切分均有 JSON 日志与 CSV 可追溯。

Q5：427 之后为什么还要密度分层？

A：427 是入库总量；训练时仍按密度/置信度安排采样与权重，避免低密度行稀释高信息样本，对应手工记录「评论数固定，行数波动」。

答辩前核对清单

这是「数据精炼」，不是「数据丢失」
漏斗：2,226 → 859 → 427；外部 47 独立
V6：427 + 96 + 27 = 550（≠ 懂车帝原始 550）
427 之后有密度分层；会讲「评论数固定，行数波动」
论文 / PPT / 代码数字已对齐
被问「太少」：先讲 BIO 与质量，再讲消融
1 分钟内能讲清漏斗 + 两层切分

业界对齐与模型指标

Data-Centric AI

Andrew Ng 等强调：迭代重心在数据质量、标注一致性与错误分析，而非一味扩大参数量。本研究漏斗与密度分层是该范式在 ABSA 下的具体化。

大模型微调「策展式」数据

OpenAI、Google、Anthropic 在指令微调与对齐阶段，均公开强调小规模、高质、经人工与自动过滤策展的数据集。

本研究指标（建立在上述管线之上）

独立测试 Span-F1：0.6705
营销标签准确度：0.68
业务发现：宝骏 vs 五菱品牌对比、舆情拐点与营销建议（见论文正文）

答辩现场可展示的核心文件

stage2_train_by_comment_v6.csv — 427 行训练集（最关键）
external_test_build_summary.json — 47 条外部测试构建说明
数据集的变迁.xlsx — 手工记录总链路，解释漏斗最直观

Henry Lu · 卢鸿璋 · 2026
本文件为答辩单文件完整版 · 无需外部 css/js · 与网站对外说明内容一致