Research · Data Engineering

评论数据工程说明

面向方面级情感分析(ABSA)的 BIO 序列标注,对样本质量与边界正确性高度敏感。本研究采用 Data-Centric 思路:先构建可审计的降噪漏斗,再在训练集内部按实体密度与置信度分层,避免低密度样本稀释高价值标注。

← 内容工作室 · 研究结论摘要 →

拷 U 盘 / 学校答辩请用 单文件完整版(样式内嵌,无需 css 文件夹)。本页需在网站环境打开。

Logic

阅读顺序:一条主线,两层切分

先看清「量从哪来、为何变少」;再理解「427 不是平铺一锅,而是入库后仍按密度再分层」。

语料漏斗

2,226 → 859 → 427

质量分层

金标 / 准金标 / 银标

密度切分

427 内部再分层

泛化验证

47 条外部测试

2,226原始评论
859银标池
427训练行
47外部测试

语料来源:小红书 1,676 条 + 懂车帝 550 条(去重合并)。427 行对应约 247 条有效评论(by_comment 口径):评论数相对固定,序列行数随实体跨度波动——这是 BIO 任务下的正常现象,而非数据丢失。

Stage 1 · 降噪

原始语料清洗与银标池构建(2,226 → 859)

在合并去重后的双平台语料上,结合大模型辅助初标与规则过滤,剔除无实体、无有效评价的低信息样本,保留可用于方面实体与情感边界学习的评论。阶段产出为 859 条银标池(Silver Pool),后续所有训练与测试样本均由此母池派生,并保留 JSON/CSV 级日志以便复核。

Stage 2 · 质量分层

训练集构成:金标 / 准金标 / 银标(859 → 427 行)

在银标池内按实体密度、模型置信度与人工复审结果选样,形成 427 行训练数据,而非对 859 条全量直接训练。BIO 任务中,单条错误标注即可干扰边界学习;因此采用「高质量子集 + 多样性补充」的组合策略。

204金标 Gold
+
132准金标
+
91银标补充
=
427训练行
层级行数选样标准(摘要)
金标 Gold204实体密度 ≥30% 或经人工确认;含 V4 遗留与第三轮复审新增
准金标 Quasi-Gold132置信度严格落在 0.7–0.9,用于边界与难例覆盖
银标 Silver91一般特征样本,抑制金标过拟合、保留跨平台多样性
合计427约 247 条评论(by_comment);论文与评估口径一致
Stage 2b · 密度切分

427 之后:按实体密度与置信度的内部再分层

427 行是主训练口径,并非训练时「一锅平铺」的全部策略。手工记录与实验设计均表明:入库后仍按密度 / 置信度做结构化安排,目的是避免低密度样本在采样与损失权重上稀释高信息样本——这与「评论数固定、行数波动」的 by_comment 组织方式一致。

内部分层行数作用(摘要)
密度 ≥ 30%109高实体覆盖,支撑核心方面与边界学习
密度 ≥ 18%39中等密度,衔接高低密度梯度
低密度样本97受控纳入,避免训练分布过于「稀疏」
准金标(密度视角)163与置信度筛选交叉,覆盖难例与边界
银标(密度视角)92多样性补充,与 Stage 2 银标口径呼应

注:上表为训练策略视角的分层统计,与 Stage 2 金/准金/银的来源层级互为补充;二者共同描述「先选进来,再怎么用」,而非重复计数同一概念。

关键表述:「评论数固定,行数波动」——同一评论在 BIO 展开后占多行,故评论条数与训练行数不必相等;对外说明样本量时,应同时交代 by_comment 与 by_row 口径,避免评委误以为「427 条评论」或「数据被悄悄删掉」。
Stage 3

独立外部测试集(47 条)

从未参与训练的剩余母池中,按长度(30–60 字)、非纯 O 实体、对比转折词等规则筛选候选,再经人工裁决锁定 47 条 外部测试样本,用于评估泛化而非调参。

V6 Split

精编集切分(550 = 427 + 96 + 27)

经漏斗得到的 V6 精编集共 550 行,按 7:2:1 划分为训练、验证与内部测试。该 550 与懂车帝原始 550 条数值相同,但来源为双平台混合精炼结果,二者不可混谈。

Positioning

与业界实践的对齐(为何不是「嫌少」)

Data-Centric AI

Andrew Ng 等强调的 Data-Centric 范式,核心是把迭代重心放在数据质量、标注一致性与错误分析,而非一味扩大参数量。本研究的漏斗与密度分层,属于该范式在 ABSA 场景下的具体化。

大模型微调中的「策展式」数据

OpenAI、Google、Anthropic 等在指令微调与对齐阶段,均公开强调小规模、高质、经人工与自动过滤策展的数据集;并非简单堆叠原始语料。本研究在领域评论上的 427 行训练集 + 严格外部测试,与这一思路同构,规模受任务与标注成本约束,而非偷懒删数。

可审计与可复现

  • 阶段产物有 CSV / JSON 摘要,关键切分与 论文、答辩材料数字已对齐(427 + 96 + 27 = 550;外部 47 独立)
  • 消融实验支持「质量优先」相对「全量脏数据」的优势,见 研究结论页

与模型指标的关系

独立测试 Span-F1 0.6705、营销标签准确度 0.68,均建立在上述管线之上。业务向的品牌对比与策略发现,见研究页「业务发现」一节。