语料来源:小红书 1,676 条 + 懂车帝 550 条(去重合并)。427 行对应约 247 条有效评论(by_comment 口径):评论数相对固定,序列行数随实体跨度波动——这是 BIO 任务下的正常现象,而非数据丢失。
先看清「量从哪来、为何变少」;再理解「427 不是平铺一锅,而是入库后仍按密度再分层」。
2,226 → 859 → 427
金标 / 准金标 / 银标
427 内部再分层
47 条外部测试
语料来源:小红书 1,676 条 + 懂车帝 550 条(去重合并)。427 行对应约 247 条有效评论(by_comment 口径):评论数相对固定,序列行数随实体跨度波动——这是 BIO 任务下的正常现象,而非数据丢失。
在合并去重后的双平台语料上,结合大模型辅助初标与规则过滤,剔除无实体、无有效评价的低信息样本,保留可用于方面实体与情感边界学习的评论。阶段产出为 859 条银标池(Silver Pool),后续所有训练与测试样本均由此母池派生,并保留 JSON/CSV 级日志以便复核。
在银标池内按实体密度、模型置信度与人工复审结果选样,形成 427 行训练数据,而非对 859 条全量直接训练。BIO 任务中,单条错误标注即可干扰边界学习;因此采用「高质量子集 + 多样性补充」的组合策略。
| 层级 | 行数 | 选样标准(摘要) |
|---|---|---|
| 金标 Gold | 204 | 实体密度 ≥30% 或经人工确认;含 V4 遗留与第三轮复审新增 |
| 准金标 Quasi-Gold | 132 | 置信度严格落在 0.7–0.9,用于边界与难例覆盖 |
| 银标 Silver | 91 | 一般特征样本,抑制金标过拟合、保留跨平台多样性 |
| 合计 | 427 | 约 247 条评论(by_comment);论文与评估口径一致 |
427 行是主训练口径,并非训练时「一锅平铺」的全部策略。手工记录与实验设计均表明:入库后仍按密度 / 置信度做结构化安排,目的是避免低密度样本在采样与损失权重上稀释高信息样本——这与「评论数固定、行数波动」的 by_comment 组织方式一致。
| 内部分层 | 行数 | 作用(摘要) |
|---|---|---|
| 密度 ≥ 30% | 109 | 高实体覆盖,支撑核心方面与边界学习 |
| 密度 ≥ 18% | 39 | 中等密度,衔接高低密度梯度 |
| 低密度样本 | 97 | 受控纳入,避免训练分布过于「稀疏」 |
| 准金标(密度视角) | 163 | 与置信度筛选交叉,覆盖难例与边界 |
| 银标(密度视角) | 92 | 多样性补充,与 Stage 2 银标口径呼应 |
注:上表为训练策略视角的分层统计,与 Stage 2 金/准金/银的来源层级互为补充;二者共同描述「先选进来,再怎么用」,而非重复计数同一概念。
从未参与训练的剩余母池中,按长度(30–60 字)、非纯 O 实体、对比转折词等规则筛选候选,再经人工裁决锁定 47 条 外部测试样本,用于评估泛化而非调参。
经漏斗得到的 V6 精编集共 550 行,按 7:2:1 划分为训练、验证与内部测试。该 550 与懂车帝原始 550 条数值相同,但来源为双平台混合精炼结果,二者不可混谈。
Andrew Ng 等强调的 Data-Centric 范式,核心是把迭代重心放在数据质量、标注一致性与错误分析,而非一味扩大参数量。本研究的漏斗与密度分层,属于该范式在 ABSA 场景下的具体化。
OpenAI、Google、Anthropic 等在指令微调与对齐阶段,均公开强调小规模、高质、经人工与自动过滤策展的数据集;并非简单堆叠原始语料。本研究在领域评论上的 427 行训练集 + 严格外部测试,与这一思路同构,规模受任务与标注成本约束,而非偷懒删数。
独立测试 Span-F1 0.6705、营销标签准确度 0.68,均建立在上述管线之上。业务向的品牌对比与策略发现,见研究页「业务发现」一节。