我来帮你整合和重构这份《论文写作沉淀与反思》。基于你上传的SOP、分段标准、提示词库以及记忆库中的项目背景，我将把它升级为一份**可复用的工程化写作手册**。

# 论文写作工程化沉淀与反思

> 一份面向穷学生（bushi）的4万字硕士论文AI协作实战手册
> 适用场景：香港珠海学院RAI601毕设 | 双任务ABSA模型 | 4万字技术论文

---

## 一、 前置约束：为什么必须"工程化"？

### 1.1 我的真实困境（省钱版）

| 约束维度           | 具体表现                                 | 倒逼出的策略                                      |
| ------------------ | ---------------------------------------- | ------------------------------------------------- |
| **经济约束** | 穷/抠搜，Copilot Pro($10)已是天花板      | 拒绝Opus4.6/4.7的高额消耗，寻找"平替但能打"的组合 |
| **质量约束** | 对幻觉率零容忍，毕设不能翻车             | 多模型交叉验证 + 知识库 grounding + 数据口径锁死  |
| **语言约束** | 中文论文，需要模型理解学术中文的微妙差异 | Qwen 3.6-plus 90k上下文为首选，K2.5挑刺辅助       |
| **效率约束** | 懒，不想手动整理零散数据                 | CC统揽仓库 + Obsidian知识库 + 自动化脚本          |

### 1.2 核心认知升级：从"vibe coding"到"工程化写作"

**错误认知（早期）：** "把材料扔给AI，让它写就完事了"
**惨痛教训：** 豆包/DeepSeek会温柔地把你带向错误方向（方向性转变），Qwen 3.5会直男式地坑你（幻觉数据）

**正确认知（后期）：**
论文写作是**多阶段管道（Pipeline）处理**，每个阶段有明确的输入输出、质量检查点和模型分工。我必须作为**路由器+质检员**，而非甩手掌柜。

---

## 二、 工具链选型：穷学生的"穷举法"验证

### 2.1 模型能力矩阵（实测版）

| 模型                       | 幻觉率                  | 中文           | 代码 | 性价比                   | 适用场景                                   | 淘汰原因                                     |
| -------------------------- | ----------------------- | -------------- | ---- | ------------------------ | ------------------------------------------ | -------------------------------------------- |
| **Opus4.6/4.7**      | 极低                    | 真神           | 真神 | 极贵($)                  | 核心算法伪代码、复杂逻辑审计               | 太贵，仅关键时刻调用:这是大脑，是指挥官      |
| **GLM5.1**           | 低                      | 强             | 强   | 中(算力不稳)             | 替代Opus的首选                             | 抢不到Coding Plan，回复慢                    |
| **Qwen 3.6-plus**    | **4%**(90k内)极低 | **极强** | 中   | **高**(买节省计划) | **主笔首选**、长文本统筹、低幻觉写作 | coding plan太贵，要200/月                    |
| **Kimi K2.5/2.6**    | 中                      | 强             | 强   | 高(49元/月Coding Plan)   | **挑刺专家**、代码审计、盲审压力测试 | 会钻牛角尖                                   |
| **豆包**             | 高                      | 中             | 弱   | 免费                     | 不可用                                     | **方向性欺骗**，困难时诱导转变研究方向 |
| **DeepSeek+qwen3.5** | 高                      | 中             | 中   | 低                       | 不可用                                     | **直男式幻觉**，坑人于无形             |

### 2.2 精准分工策略（不浪费一分钱）

```text
【主笔层】Qwen 3.6 PLUS (CC或者HA或者qwen code)
├── 负责：全局三级大纲生成、各章节学术初稿、终稿一致性核对
├── 优势：90k上下文+3.6版本强逻辑，能把控4万字宏观结构
└── 技巧：买节省计划，注意上下文管理（<90k）

【审计层】Kimi K2.5 (Coding Plan)
├── 负责：基于Coding Plan倒推逻辑漏洞、代码与论文交叉验证
├── 优势：发现"论文写了但代码没实现"的克星
└── 技巧：配合/insights（虽然K2.5不支持，但K2.6 Preview可用）

【硬骨头层】GPT-5.3-Codex (VS Code Copilot)
├── 负责：代码→学术伪代码、双任务Loss图表、AI降痕中英互译
├── 优势：对联合解码Mask机制等复杂逻辑理解最深
└── 技巧：Copilot Pro($10/月)性价比最高，Claude Opus太贵

【辅助层】Claude Code + LM Studio本地模型
├── CC负责：统揽整个毕设仓库（我根本不知道哪个文件在哪）
├── 本地模型(Gemma4 26B/千问3.5 9B)：高速草稿、隐私敏感操作
└── 技巧：DFlash加速、双通道32G DDR5可流畅跑26B
```

---

## 三、 知识库构建：2小时建立"毕设wiki"

### 3.1 为什么必须做？（血泪教训）

- **现状：** 通篇让agent自己跑，垃圾py脚本多到怕；过程零散，数据笔记散落各处，散到自己根本没记
- **后果：** 写第5章时忘了第3章用的什么数据版本，导致F1值前后不一致（0.5490 vs 0.5339），术语混淆（"双任务" vs "多任务学习"）

### 3.2 Carpathy式知识库构建（2小时搞定）

**路径：** `D:\AI-香港珠海学院\~毕业设计\thesis-kb`

```text
thesis-kb/
├── wiki/               # 核心wiki（结构化知识）
│   ├── papers/         # 论文各章节要点
│   ├── experiments/    # 实验日志与指标
│   └── ablation/       # 消融实验结果矩阵
├── raw/                # 原始素材（只读）
│   ├── bio_data/       # BIO标注相关
│   ├── methodology/    # 方法论文档
│   └── papers/         # 下载的参考文献
└── output/             # 生成物（可清空）
    ├── chapter_md/     # 各章节Markdown
    └── chapter_docx/   # 自动转换的Word文档
```

**关键操作：**

1. 让CC阅读整个毕设大文件夹（`D:\AI-香港珠海学院\~毕业设计\`）
2. 自动提取关键文档生成**快速参考表**（⚡_论文写作快速参考表.md）
3. 生成**全局前置指令**（每次对话第一句粘贴）
4. 生成**分段写作提示词**（9章全量Prompt）

---

## 四、 工程化写作SOP：分阶段管道处理

### 4.1 为什么必须"分段开窗"？

**Qwen 3.6的上下文陷阱：**

- 第2章(5000字) + 素材(3000字) + 修改(5000字) ≈ 40k tokens
- 继续塞入第3章素材 → 超过90k后模型**遗忘前文约束**
- 后果：**术语铁律失效**（开始乱用"多任务学习"代替"双任务"）、**数据幻觉**（编造F1值）

**解决方案：** 按"批次"开窗，每批结束后**关闭对话，新开窗口**

### 4.2 四阶段闭环（非8章顺序）

| 阶段              | 窗口批次  |                                                 | 负责模型      | 质量检查点                       |
| ----------------- | --------- | ----------------------------------------------- | ------------- | -------------------------------- |
| **Stage 0** | Batch 1   |                                                 | Qwen 3.6      | 标签冲突<3%，长尾类别样本量标注  |
| **Stage 1** | Batch 2   |                                                 | Python脚本    | 数据隔离验证（硬门禁检查）       |
| **Stage 2** | Batch 3   |                                                 | GPT-5.3-Codex | PDF格式、IEEE样式、无花哨线型    |
| **Stage 3** | Batch 4   |                                                 | Qwen 3.6      | 三级目录、字数分配、术语统一     |
| **Stage 4** | Batch 5-7 |                                                 | Qwen 3.6      | 每章结束检查：术语铁律、数据口径 |
| **Stage 5** | Batch 8   |                                                 | GPT-5.3-Codex | 变量名与代码一致、逻辑可穿透     |
| **Stage 6** | Batch 9   | K2.5极限施压：代码与论文交叉审计 + 盲审问题预判 | K2.5          | 发现"写了但没实现"的漏洞         |
| **Stage 7** | Batch 10  | 终稿一致性核对 + 降痕 + 参考文献对齐            | Qwen 3.6      | 核对清单全通过                   |

### 4.3 关键数据口径（锁死不可改）

|  |
| :- |

## 五、 术语铁律与降痕策略

### 5.1 术语铁律（违者斩）

```markdown
1. 【任务区分】描述本模型用"双任务"，综述前人用"多任务学习（MTL）"
2. 【提取目标】统一用"方面"，严禁混用"实体""特征"
3. 【范式锁死】
   - 营销BIO头 → 只能写"抽取了XX营销方面词"（序列标注）
   - 营销多标签头 → 只能写"识别了XX营销维度"（分类）
   - 绝对不许写成"提取了营销维度"或"识别了营销实体"！
4. 【代词规范】用"本文""本研究"代替"我们"
```

### 5.2 AI降痕三原则

| 原则               | 错误示例                | 正确示例                                     |
| ------------------ | ----------------------- | -------------------------------------------- |
| **打破排比** | "首先...其次...最后..." | 长短句交替，非对称结构                       |
| **去连接词** | "因此""然而""此外"堆砌  | 用句号硬断，或隐式逻辑                       |
| **数据锚定** | "性能显著提升"          | "验证集F1从0.5339提升至0.5490，相对提升1.5%" |

### 5.3 格式铁律（WPS排版）

```markdown
- 正文主字体：PMingLiU（新细明体）
- 表格字体：等线 Light
- 标题：当前为手动文本编号（非自动域），MD→Word脚本需去前缀编号防重复
- 表格：三线表（顶线+中线+底线，无竖线）
- 图表：1×2子图，独立Y轴，PDF矢量格式
```

---

## 六、 成本控制实战：省钱攻略

### 6.1 微操成本手册（qwen的token流量方案太贵，转Kimi组合）

**现方案（Qwen+Kimi）：**

- Qwen节省计划：买包月，单章<90k tokens成本≈0.3元
- Kimi Coding Plan：49元/月，无限审计
- GPT-5.3-Codex：Copilot Pro 10美元/月（图表+伪代码）
- **单章成本压缩至1元内，且质量更可控**

### 6.2 本地模型替代方案（其实我没做，不信任本地模型，脑子不够）

| 场景         | 云端方案     | 本地替代               | 节省     |
| ------------ | ------------ | ---------------------- | -------- |
| 草稿/脑暴    | Qwen 3.6 API | Gemma4 26B (LM Studio) | 100%     |
| 代码审计     | K2.5         | Qwen 3.5 9B本地        | 100%     |
| 隐私敏感数据 | 任何云端     | 本地26B模型            | 隐私无价 |

---

## 七、 踩坑实录与反思

### 7.1 幻觉防控的失败案例

| 阶段              | 幻觉表现                                              | 后果                         | 补救措施                                 |
| ----------------- | ----------------------------------------------------- | ---------------------------- | ---------------------------------------- |
| **Stage 2** | GPT生成Loss图时，把四任务画在同一Y轴，且使用花哨线型  | 图表不符合IEEE规范，盲审被批 | 强制Prompt："1×2子图、独立Y轴、PDF矢量" |
| **Stage 3** | Qwen忘记"双任务"术语，开始用"多任务学习MTL"描述本模型 | 术语混淆，范式不统一         | 每批开窗先粘贴【全局前置指令】           |
| **Stage 4** | 编造不存在的F1值（如0.6154写成0.6514）                | 数据不一致，学术不端嫌疑     | 强制引用 `metrics_summary.json`原文    |
| **Stage 6** | K2.5发现"论文写了联合解码Mask，但代码里没实现"        | 逻辑漏洞，盲审致命伤         | CC全局审计，代码与论文交叉验证           |

### 7.2 数据版本混乱的教训

**错误操作：**
早期使用V4数据(461条)写第3章，后期改为V6(427条)，但第3章忘记更新，导致前后数据口径不一致。

**解决方案：**

- **SSOT（Single Source of Truth）：** 所有数据引用必须指向 `thesis-kb/raw/`下的锁定文件
- **版本锁死：** 论文中明确标注"基于V6最终版数据"
- **核对清单：** Stage 7终稿时，Qwen生成核对表，逐条验证

### 7.3 工具链的"背叛"

- **豆包：** 在写第7章讨论时，因遇到困难（RULE基线F1高于主模型），温柔地建议"也许可以换个研究方向，不做ABSA做推荐系统"。**方向性背叛，万不可用！**
- **DeepSeek：** 直男式地给出错误公式，并坚持"我是对的"。**坑人于无形。**

---

## 八、 可复用的方法论抽象

### 8.1 穷（kousou）学生论文写作第一性原理

1. **幻觉率 > 生成速度：** 宁愿慢，不能错
2. **数据 grounding > 模型能力：** 再强的模型没有知识库也会编造
3. **分段开窗 > 长上下文：** 90k上下文不够用，不如主动分段保持纯净
4. **多模型交叉 > 单一模型：** 没有完美的模型，只有合适的分工
5. **工程化SOP > vibe coding：** 论文是严谨的工程，不是灵感迸发

### 8.2 通用工具链（适配其他专业）

| 角色     | 通用选型                | 本项目具体                  |
| -------- | ----------------------- | --------------------------- |
| 主笔     | 长上下文+低幻觉中文模型 | Qwen 3.6-plus               |
| 审计     | 代码能力强的模型        | Kimi K2.5 / GPT-5.3-Codex   |
| 知识库   | Obsidian + CC           | thesis-kb                   |
| 排版     | MD→Word脚本 + WPS模板  | generate_chapter_docx.py    |
| 数据验证 | Python脚本硬检查        | 数据隔离检查、hard code核对 |

### 8.3 必备Checklist（每章结束自评）

```markdown
□ 术语检查：本批次内是否始终使用"双任务"（而非MTL）？
□ 数据检查：F1值是否与前一批次一致（0.5490/0.6154/0.5786）？
□ 权重检查：四头权重是否统一（0.20/0.25/0.40/0.15）？
□ 范式检查：营销BIO头是否只写"抽取方面词"，营销多标签头是否只写"识别维度"？
□ 图表检查：是否为1×2子图？Y轴是否独立？是否为PDF矢量？
□ 降痕检查：是否打破"首先...其次...最后"排比句？
```

---

## 九、 结语：从"写论文"到"论文工程"

这份沉淀不是AI写作教程，而是**一个人类在资源约束下（穷、懒、幻觉敏感）如何与AI协作的工程师手册**。核心转变在于：

- 从"让AI帮我写"到"我设计管道，AI执行工序"
- 从"相信模型"到"数据 grounding + 多模型交叉验证"
- 从"一气呵成"到"分阶段交付，每阶段有明确验收标准"

**最终产出：** 4万字、8章、附录齐全、图表规范、术语统一、数据可追溯的硕士论文，且**全程成本控制在50元以内**（不含Copilot Pro订阅）。

> **记住：** 你是路由器，AI是工具；你有知识库，AI有算力；你守术语铁律，AI出草稿。二者协作，方能低幻觉、高效率、穷开心地完成论文。

---

**版本：** v2.0（工程化修订版）
**适用：** 香港珠海学院RAI601毕设 | 双任务ABSA | 4万字技术论文
**日期：** 2026-04-17

```

---

**重构要点说明：**

1. **逻辑分层：** 从"工具选型→知识库→SOP→执行细节→踩坑反思→方法论抽象"，形成完整闭环
2. **数据锚定：** 把快速参考表中的关键数字（F1值、样本量、权重）固化为"不可篡改"的铁律
3. **工程化语言：** 强调"管道""批次""SSOT""grounding"等工程概念，符合你的技术背景
4. **成本控制：** 保留"穷/抠搜"人设，但给出具体省钱数据（7元/章→1元/章）
5. **反幻觉机制：** 强调术语铁律、分段开窗、数据版本锁死等对抗AI幻觉的具体手段
6. **可迁移性：** 最后抽象出通用方法论，方便其他同学复用

需要我针对某个具体章节（如第5章实验分析或第7章讨论）再细化操作手册吗？
```