激情燃烧的 3 个月

v17论文定稿提交

6 页独立前台网站

1 支栏目视频上线

8 Agent双线流水线

Evolution

这 90 天，协作方式怎么变的

不是更会写 Prompt，而是换了一套和 AI 共事的方法。下面四条约束，几乎贯穿所有决定。

控成本 工具月费有上限，不拿 Opus 当日常消耗品。

怕幻觉 论文和数据零容忍，关键数字必须自己能核对。

看能力：不迷信排行榜。实测谁在哪类任务上靠谱，再分工。 不同模型能力边界的探索者与分享家——不迷信排行榜，实测谁在哪类任务上靠谱。

诚实可复现 敢写「这条腿不行」「本地 Agent 搞不定」，不只留漂亮结果。

Phase 01

探索期

整盘丢给 AI，以为能一键搞定

临时脚本满地都是。今天跑分 0.67，明天同一份代码变 0.55。AI 忘了昨天约定，我也忘了文件放哪。那时真以为「会提问」就够了。

Phase 02

体系化

先建地图，再派活

给整个毕设文件夹建知识库：术语什么意思、数据口径怎么锁、一次写几章。花两小时把「基准真相」立住，后面 AI 才不至于各说各话。

Phase 03

调度期

我当包工头，模型当工种

写长文找 Qwen，挑刺找 Kimi，写代码用 Copilot。谁会在关键时刻「换题、换方向」，直接拉黑。我负责派活、验收、拉闸。不是和 AI 聊天，是管一支外包队。

「机器是很聪明、博学、有审美、跑得快、有时会犯傻的实习生。」—— 我对 AI 的定位，不是神，是团队。

Battles

五大战役

做了啥、当时怎么想、哪里翻车、最后带走什么——尽量说人话。

毕设：从爬评论到跑模型，再到答辩台上讲故事

论文是结果，但这三个月真正耗心力的是：数据怎么来、模型怎么训、哪里不行敢不敢写、答辩怎么让人听懂。详见 Research。

训练这条线，实际怎么走

从懂车帝、小红书爬用户评论，2,226 条原始语料一路洗到 427 条可训练样本——中间每一刀都有记录，不是「AI 说能训就训」。

标注质量不够时，我没有赌单一路线，而是「快筛一批、深挖一批」两轨并行：快的先补量，慢的拉高密度。这是像带项目，不像拼体力，不是熬夜堆工时。

模型分两步训：先打通用语言底子，再针对「产品评价 + 营销意图」联合微调。做了多轮消融实验，发现序列标注那一层（CRF）贡献最大——加不加它，分数差一截，这不是靠感觉，是跑出来的。

独立测试集 Span-F1 到 0.6705，营销标签准确度 0.68。427 条训练样本与 47 条外部测试分开，避免背答案；论文、答辩材料和代码里的数字对齐过，才敢写进正文。

个人知识库

毕设文件夹不能只堆脚本和权重。我建了一套个人知识库，把每次试验的数据版本、脚本路径、指标结果串成一张地图——写第 5 章时不会忘了第 3 章用的哪个数据版，术语也不会前后打架。

后来用「论文亮点」批量找文献、工程化写章节，看起来打炮打蚊子，但这套降维打法能迁移到别的项目——方法链接找得巧，创新点自己就冒出来。

半小时 85 分 PPT 工作流

给直线领导汇报够用，不是发布会级别。和视频里一样，核心就四步——完整演示见 Studio「用 AI 写 PPT」（B 站完整版 →）：

本地 Agent 别指望一键成品；输出连断三次就换策略——答辩 PPT 改成分批生成，每批人工核对再往下走。

论文写作工程沉淀与反思

毕设对我不是「让 AI 写一篇论文」。我是路由器 + 质检员：Qwen 写段落，Kimi 专门挑刺，术语和数字口径由我锁死。写论文像管生产线——原料（数据）→ 工艺（训练）→ 质检（交叉验证）→ 出厂（答辩），一环不能省。

翻了什么车

曾把 9 章丢给模型，指望一次出稿。结果术语前后打架、满篇「首先其次最后」。后来改成每次只写 2 — 3 章，把上下文控制在 90k 以内，写完人工勾选再继续。

磁盘爆满时扫描发现：281 GB 全是中间权重文件，人写的反思和决策才 4.3 MB。差点被 AI 清理建议误删。从此定下「砍权重、不砍心血」。

方法论实战 · 极限交付

同一套 SOP，我帮一位同学极限交付：3 小时 内完成模型训练调优、数据梳理和论文初稿；结合论文排版 SOP 指导 HTML，24 小时 内交出相对质量的论文 + 答辩 PPT。

别人一周的活，按我的 SOP 一天内保质交付！

「先建自己能读懂的仓库地图，再让 AI 写——比多开十个聊天窗口有用。」

沉淀：做研究像做项目，诚实比漂亮数字更重要。

个人助理与打分评委组：把协作方法平移到生活

Hermes（本地 Agent 框架）里搭了 8 个角色、两条线：一条帮求职（找岗位→改简历→投递），一条帮做内容（写稿→分镜→成片→更新网站）。毕设里练会的「分工 + 验收」，在这里复用。

做了什么

跑通首支栏目视频「用 AI 写 PPT」；个人站六页上线；飞书群自动推英语和菜谱；排查记忆系统偷偷烧最贵模型 Token 的坑。

怎么想的

视频大纲也用交叉验证：多个 AI 各出一版 → 互相挑错 → 最强模型融合——和毕设写论文是同一套逻辑。香港家里乱、没有背景布，竖屏视频定成「大字信息卡 + 右下角小窗」，PPT 大、人像小，不跟环境硬刚。

翻了什么车

视频合成试过屏幕直录 + 显卡加速，WSL 和 Windows 管道不通，折腾很久。最后改成浏览器录 HTML 幻灯片 + 本地 FFmpeg 合成——丑一点但能交付。TTS 配音听一遍就扔，最终用我自己重录，人味不能省。

「做完，比用最潮的技术方案做完更重要。」

沉淀：给 AI 派活要像带团队——有物证、有节点、有预算。

网站

六页静态站 + 个人域名，从「简历复读机」改成能辩护的对外前台。

坑：机器人项目必须标「方案沟通期」，过度承诺面试穿帮。

网站要让人读进去，不是条目堆砌。

求职

五个方向并行准备，IANG 到 2028 年 7 月，简历和求职状态放在首屏。

坑：写「每周量产 3 条视频」这种话，自己都不信。

对外每一句话，得能在面试里展开。见 Career。

视频

「用 AI 写 PPT」抖音 2 段 + B 站完整版，交叉验证大纲是栏目主线。

坑：竖屏不能左右分屏；直录管道不通；纯 TTS 没人味。

内容栏目要说坑，不只说好。见 Studio。

Decisions

三个硬核决策

01

数据不够，就两轨并行

标注又慢又差时，不赌单一路线：快的先筛一批顶上，慢的深挖拉高浓度。像带项目，不像拼体力。

02

281 GB → 4.3 MB：只留人写的

毕设文件夹近 300 GB，九成九是中间模型权重；人写的反思、决策、踩坑记录只有几 MB。删盘时坚决砍 .pt，不碰 .md 和 .txt。

03

不选「最强模型」，选「最不背叛的」

有的模型答错还好，困难时会悄悄换研究方向——比幻觉更致命。豆包因此从毕设工具箱里出局；Qwen 写、Kimi 挑，分工比迷信榜单管用。

AI View

模型观：三个代表性切片

不是选最强模型，是选最不容易在关键节点背叛你的模型。

Qwen · 主笔

长文、中文学术表述的主力。90k 字以内相对稳，适合写段落、统筹章节。

Kimi · 挑刺

专门用来抬杠和审计。大纲交叉验证、代码和论文找茬，审美也在线。

豆包 · 出局

不是笨，是「温柔地把你带偏」——困难时建议换题、换路线。写毕设这种不能换方向的活，禁用。

「别人只说好不说坑——这个栏目才会告诉你的事。」

「沉淀只写决策 + 数字 + 下一步，感慨留给生活。」

「路由器 + 质检员，不是甩手掌柜。」

What's Next

火还没灭：三条线在跑

Release Notes 不是终点。下面是我接下来几个月会诚实更新的方向。有进展才写进站，没进展就继续 Phase 0。

Phase 0 · 需求验证

审计辅助工具

把毕设里练会的「分工 + 交叉验证 + 可审计输出」，平移到真实审计需求：底稿核对、抽样追踪、异常清单。先跑通最小闭环，再谈产品化。目前在梳理一线工作流，没有 demo 不吹。

Agent 就绪

求职投递

找岗、改简历、投递的 Agent 线已搭好，IANG 窗口还长。等有第一批真实投递和面试反馈，再在 Career 补时间线，不提前写漂亮话。

模板 B 定稿

视频栏目

首支「用 AI 写 PPT」已上线，竖屏信息卡 + 交叉验证大纲是固定打法。下一支有片子上线就更新 Studio，说坑比说好更重要。

Takeaways

带走这三条原则

先建「自己能读懂的仓库地图」，再让 AI 写。
按「会不会在关键时刻背叛你」选工具，不是看排行榜。
对外说人话、留数字、敢写坑；论文和网站都是。

这不是回顾，是操作系统的 Release Notes。

职业档案论文研究内容工作室下载简历