评论数据工程说明

Logic

阅读顺序：一条主线，两层切分

先看清「量从哪来、为何变少」；再理解「427 不是平铺一锅，而是入库后仍按密度再分层」。

①

语料漏斗

2,226 → 859 → 427

②

质量分层

金标 / 准金标 / 银标

③

密度切分

427 内部再分层

④

泛化验证

47 条外部测试

2,226原始评论

→

859银标池

→

427训练行

∥

47外部测试

语料来源：小红书 1,676 条 + 懂车帝 550 条（去重合并）。427 行对应约 247 条有效评论（by_comment 口径）：评论数相对固定，序列行数随实体跨度波动——这是 BIO 任务下的正常现象，而非数据丢失。

Stage 1 · 降噪

原始语料清洗与银标池构建（2,226 → 859）

在合并去重后的双平台语料上，结合大模型辅助初标与规则过滤，剔除无实体、无有效评价的低信息样本，保留可用于方面实体与情感边界学习的评论。阶段产出为 859 条银标池（Silver Pool），后续所有训练与测试样本均由此母池派生，并保留 JSON/CSV 级日志以便复核。

Stage 2 · 质量分层

训练集构成：金标 / 准金标 / 银标（859 → 427 行）

在银标池内按实体密度、模型置信度与人工复审结果选样，形成 427 行训练数据，而非对 859 条全量直接训练。BIO 任务中，单条错误标注即可干扰边界学习；因此采用「高质量子集 + 多样性补充」的组合策略。

204金标 Gold

+

132准金标

+

91银标补充

=

427训练行

层级	行数	选样标准（摘要）
金标 Gold	204	实体密度 ≥30% 或经人工确认；含 V4 遗留与第三轮复审新增
准金标 Quasi-Gold	132	置信度严格落在 0.7–0.9，用于边界与难例覆盖
银标 Silver	91	一般特征样本，抑制金标过拟合、保留跨平台多样性
合计	427	约 247 条评论（by_comment）；论文与评估口径一致

Stage 2b · 密度切分

427 之后：按实体密度与置信度的内部再分层

427 行是主训练口径，并非训练时「一锅平铺」的全部策略。手工记录与实验设计均表明：入库后仍按密度 / 置信度做结构化安排，目的是避免低密度样本在采样与损失权重上稀释高信息样本——这与「评论数固定、行数波动」的 by_comment 组织方式一致。

内部分层	行数	作用（摘要）
密度 ≥ 30%	109	高实体覆盖，支撑核心方面与边界学习
密度 ≥ 18%	39	中等密度，衔接高低密度梯度
低密度样本	97	受控纳入，避免训练分布过于「稀疏」
准金标（密度视角）	163	与置信度筛选交叉，覆盖难例与边界
银标（密度视角）	92	多样性补充，与 Stage 2 银标口径呼应

注：上表为训练策略视角的分层统计，与 Stage 2 金/准金/银的来源层级互为补充；二者共同描述「先选进来，再怎么用」，而非重复计数同一概念。

关键表述：「评论数固定，行数波动」——同一评论在 BIO 展开后占多行，故评论条数与训练行数不必相等；对外说明样本量时，应同时交代 by_comment 与 by_row 口径，避免评委误以为「427 条评论」或「数据被悄悄删掉」。

Stage 3

独立外部测试集（47 条）

从未参与训练的剩余母池中，按长度（30–60 字）、非纯 O 实体、对比转折词等规则筛选候选，再经人工裁决锁定 47 条 外部测试样本，用于评估泛化而非调参。

V6 Split

精编集切分（550 = 427 + 96 + 27）

经漏斗得到的 V6 精编集共 550 行，按 7:2:1 划分为训练、验证与内部测试。该 550 与懂车帝原始 550 条数值相同，但来源为双平台混合精炼结果，二者不可混谈。

Positioning

与业界实践的对齐（为何不是「嫌少」）

Data-Centric AI

Andrew Ng 等强调的 Data-Centric 范式，核心是把迭代重心放在数据质量、标注一致性与错误分析，而非一味扩大参数量。本研究的漏斗与密度分层，属于该范式在 ABSA 场景下的具体化。

大模型微调中的「策展式」数据

OpenAI、Google、Anthropic 等在指令微调与对齐阶段，均公开强调小规模、高质、经人工与自动过滤策展的数据集；并非简单堆叠原始语料。本研究在领域评论上的 427 行训练集 + 严格外部测试，与这一思路同构，规模受任务与标注成本约束，而非偷懒删数。

可审计与可复现

阶段产物有 CSV / JSON 摘要，关键切分与论文、答辩材料数字已对齐（427 + 96 + 27 = 550；外部 47 独立）
消融实验支持「质量优先」相对「全量脏数据」的优势，见研究结论页

与模型指标的关系

独立测试 Span-F1 0.6705、营销标签准确度 0.68，均建立在上述管线之上。业务向的品牌对比与策略发现，见研究页「业务发现」一节。