research-data-pipeline-ppt.html 复制到 U 盘(可单独一个文件夹,勿改名内嵌样式)。research-data-pipeline.html(依赖外部 css),务必用本文件。Research · Data Engineering · Defense
面向方面级情感分析(ABSA)的 BIO 序列标注。Data-Centric 思路:2,226 条双平台原始评论 → 859 银标池 → 427 训练行 + 47 独立外部测试;427 入库后按实体密度 / 置信度再分层。与论文、答辩材料数字一致,全链条可审计。
语料:小红书 1,676 + 懂车帝 550(去重合并)。427 行 ≈ 247 条评论(by_comment):评论数相对固定,序列行数随实体跨度波动——BIO 任务正常现象,非数据丢失。
在银标池内按实体密度、模型置信度与人工复审选样。BIO 任务中,单条错误标注可干扰边界学习,故采用「高质量子集 + 多样性补充」,而非 859 全量训练。
| 层级 | 行数 | 选样标准(摘要) | 来源说明 |
|---|---|---|---|
| 金标 Gold | 204 | 实体密度 ≥30% 或人工确认 | V4 遗留 140 + 第三轮复审新增 64 |
| 准金标 Quasi-Gold | 132 | 置信度严格 0.7–0.9 | 银标池中脚本挖掘的边界样本 |
| 银标 Silver | 91 | 一般特征 · 多样性 | 抑制金标过拟合、保留跨平台多样性 |
| 合计 | 427 | 约 247 条评论(by_comment);论文与评估口径一致 | |
427 是主训练口径,不是一锅平铺。入库后仍按密度/置信度做结构化安排,避免低密度样本在采样与损失权重上稀释高信息样本。
| 内部分层 | 行数 | 作用(摘要) |
|---|---|---|
| 密度 ≥ 30% | 109 | 高实体覆盖,支撑核心方面与边界学习 |
| 密度 ≥ 18% | 39 | 中等密度,衔接高低密度梯度 |
| 低密度样本 | 97 | 受控纳入,避免训练分布过于稀疏 |
| 准金标(密度视角) | 163 | 与置信度筛选交叉,覆盖难例与边界 |
| 银标(密度视角) | 92 | 多样性补充,与 Stage 2 银标呼应 |
注:上表为训练策略视角,与 Stage 2 金/准金/银的来源层级互为补充,共同描述「先选进来,再怎么用」。
| 关键表述 | 论文 | 答辩 PPT | 可追溯文件 |
|---|---|---|---|
| 主声明 | 427 训练 + 47 外部测试 | 同左 | stage2_train_by_comment_v6.csv |
| V6 切分 | 550 = 427+96+27 | 数据表 | 427+96+27 = 550 ✓ |
| 局限 | — | 样本量较小等 | 学术诚实 |
Q1:为什么 2,000+ 最后只用 427?数据有问题吗?
A:原始语料 2,200+ 很扎实;BIO 对质量敏感,我们设计了自动化多层降噪与大模型辅评,提纯出 427 条高信噪比训练集,含跨平台特征。消融表明质量优先优于数千条脏数据导致的过拟合。
Q2:为什么懂车帝 550 和 V6 也是 550?
A:初始 550 是单平台(懂车帝)原始语料;V6 的 550 是从 2,226 条双平台混合语料经过去重、标注、置信度过滤后精炼的精编集。数字相同、来源与质量完全不同,体现精炼过程有效,并非只用懂车帝或浪费小红书。
Q3:47 条外部测试怎么来的?
A:从完全未参与训练的数据中,按长度、实体、转折等规则筛出 60 条候选,人工裁决锁定 47 条高难度样本,用于客观评估泛化,而非调参。
Q4:论文和 PPT 数字一致吗?有对数吗?
A:一致。427+96+27=550;关键切分均有 JSON 日志与 CSV 可追溯。
Q5:427 之后为什么还要密度分层?
A:427 是入库总量;训练时仍按密度/置信度安排采样与权重,避免低密度行稀释高信息样本,对应手工记录「评论数固定,行数波动」。
Andrew Ng 等强调:迭代重心在数据质量、标注一致性与错误分析,而非一味扩大参数量。本研究漏斗与密度分层是该范式在 ABSA 下的具体化。
OpenAI、Google、Anthropic 在指令微调与对齐阶段,均公开强调小规模、高质、经人工与自动过滤策展的数据集。
stage2_train_by_comment_v6.csv — 427 行训练集(最关键)external_test_build_summary.json — 47 条外部测试构建说明数据集的变迁.xlsx — 手工记录总链路,解释漏斗最直观Henry Lu · 卢鸿璋 · 2026
本文件为答辩单文件完整版 · 无需外部 css/js · 与网站对外说明内容一致