Three Intense Months · Field Notes

激情燃烧的 3 个月

2026.2 — 5 · 从 Vibe Coding 到个人 AI 操作系统的 90 天

主职带娃,兼职读研写论文。极限多线程下,我顺手给自己砸了一项硬指标。
全年 51 周,每周 5 天、每天 30 分钟以上的高强度英语对话。
没有节假日,没有病假妥协。51/51 周打卡,满分全勤。

核心信念:模型按背叛方式选型,不按排行榜。
一个务实派用 AI 做毕设、建站、拍视频的真实记录,含坑量不低。
v17论文定稿提交
6 页独立前台网站
1 支栏目视频上线
8 Agent双线流水线
Evolution

这 90 天,协作方式怎么变的

不是更会写 Prompt,而是换了一套和 AI 共事的方法。下面四条约束,几乎贯穿所有决定。

控成本 工具月费有上限,不拿 Opus 当日常消耗品。
怕幻觉 论文和数据零容忍,关键数字必须自己能核对。
看能力:不迷信排行榜。实测谁在哪类任务上靠谱,再分工。 不同模型能力边界的探索者与分享家——不迷信排行榜,实测谁在哪类任务上靠谱。
诚实可复现 敢写「这条腿不行」「本地 Agent 搞不定」,不只留漂亮结果。
Phase 01

探索期

整盘丢给 AI,以为能一键搞定

临时脚本满地都是。今天跑分 0.67,明天同一份代码变 0.55。AI 忘了昨天约定,我也忘了文件放哪。那时真以为「会提问」就够了。

Phase 02

体系化

先建地图,再派活

给整个毕设文件夹建知识库:术语什么意思、数据口径怎么锁、一次写几章。花两小时把「基准真相」立住,后面 AI 才不至于各说各话。

Phase 03

调度期

我当包工头,模型当工种

写长文找 Qwen,挑刺找 Kimi,写代码用 Copilot。谁会在关键时刻「换题、换方向」,直接拉黑。我负责派活、验收、拉闸。不是和 AI 聊天,是管一支外包队。

「机器是很聪明、博学、有审美、跑得快、有时会犯傻的实习生。」—— 我对 AI 的定位,不是神,是团队。
Battles

五大战役

做了啥、当时怎么想、哪里翻车、最后带走什么——尽量说人话。

毕设:从爬评论到跑模型,再到答辩台上讲故事

论文是结果,但这三个月真正耗心力的是:数据怎么来、模型怎么训、哪里不行敢不敢写、答辩怎么让人听懂。详见 Research

训练这条线,实际怎么走

从懂车帝、小红书爬用户评论,2,226 条原始语料一路洗到 427 条可训练样本——中间每一刀都有记录,不是「AI 说能训就训」。

标注质量不够时,我没有赌单一路线,而是「快筛一批、深挖一批」两轨并行:快的先补量,慢的拉高密度。这是像带项目,不像拼体力,不是熬夜堆工时。

模型分两步训:先打通用语言底子,再针对「产品评价 + 营销意图」联合微调。做了多轮消融实验,发现序列标注那一层(CRF)贡献最大——加不加它,分数差一截,这不是靠感觉,是跑出来的。

独立测试集 Span-F1 到 0.6705,营销标签准确度 0.68427 条训练样本与 47 条外部测试分开,避免背答案;论文、答辩材料和代码里的数字对齐过,才敢写进正文。

个人知识库

毕设文件夹不能只堆脚本和权重。我建了一套个人知识库,把每次试验的数据版本、脚本路径、指标结果串成一张地图——写第 5 章时不会忘了第 3 章用的哪个数据版,术语也不会前后打架。

后来用「论文亮点」批量找文献、工程化写章节,看起来打炮打蚊子,但这套降维打法能迁移到别的项目——方法链接找得巧,创新点自己就冒出来。

半小时 85 分 PPT 工作流

给直线领导汇报够用,不是发布会级别。和视频里一样,核心就四步——完整演示见 Studio「用 AI 写 PPT」B 站完整版 →):

本地 Agent 别指望一键成品;输出连断三次就换策略——答辩 PPT 改成分批生成,每批人工核对再往下走。

论文写作工程沉淀与反思

毕设对我不是「让 AI 写一篇论文」。我是路由器 + 质检员:Qwen 写段落,Kimi 专门挑刺,术语和数字口径由我锁死。写论文像管生产线——原料(数据)→ 工艺(训练)→ 质检(交叉验证)→ 出厂(答辩),一环不能省。

翻了什么车

曾把 9 章丢给模型,指望一次出稿。结果术语前后打架、满篇「首先其次最后」。后来改成每次只写 2 — 3 章,把上下文控制在 90k 以内,写完人工勾选再继续。

磁盘爆满时扫描发现:281 GB 全是中间权重文件,人写的反思和决策才 4.3 MB。差点被 AI 清理建议误删。从此定下「砍权重、不砍心血」

方法论实战 · 极限交付

同一套 SOP,我帮一位同学极限交付:3 小时 内完成模型训练调优、数据梳理和论文初稿;结合论文排版 SOP 指导 HTML,24 小时 内交出相对质量的论文 + 答辩 PPT

别人一周的活,按我的 SOP 一天内保质交付!

「先建自己能读懂的仓库地图,再让 AI 写——比多开十个聊天窗口有用。」

沉淀:做研究像做项目,诚实比漂亮数字更重要

个人助理与打分评委组:把协作方法平移到生活

Hermes(本地 Agent 框架) 里搭了 8 个角色、两条线:一条帮求职(找岗位→改简历→投递),一条帮做内容(写稿→分镜→成片→更新网站)。毕设里练会的「分工 + 验收」,在这里复用。

做了什么

跑通首支栏目视频「用 AI 写 PPT」;个人站六页上线;飞书群自动推英语和菜谱;排查记忆系统偷偷烧最贵模型 Token 的坑。

怎么想的

视频大纲也用交叉验证:多个 AI 各出一版 → 互相挑错 → 最强模型融合——和毕设写论文是同一套逻辑。香港家里乱、没有背景布,竖屏视频定成「大字信息卡 + 右下角小窗」,PPT 大、人像小,不跟环境硬刚。

翻了什么车

视频合成试过屏幕直录 + 显卡加速,WSL 和 Windows 管道不通,折腾很久。最后改成浏览器录 HTML 幻灯片 + 本地 FFmpeg 合成——丑一点但能交付。TTS 配音听一遍就扔,最终用我自己重录,人味不能省。

「做完,比用最潮的技术方案做完更重要。」

沉淀:给 AI 派活要像带团队——有物证、有节点、有预算

网站

六页静态站 + 个人域名,从「简历复读机」改成能辩护的对外前台。

坑:机器人项目必须标「方案沟通期」,过度承诺面试穿帮。

网站要让人读进去,不是 条目堆砌。

求职

五个方向并行准备,IANG 到 2028 年 7 月,简历和求职状态放在首屏。

坑:写「每周量产 3 条视频」这种话,自己都不信。

对外每一句话,得能在面试里展开。见 Career

视频

「用 AI 写 PPT」抖音 2 段 + B 站完整版,交叉验证大纲是栏目主线。

坑:竖屏不能左右分屏;直录管道不通;纯 TTS 没人味。

内容栏目要说坑,不只说好。见 Studio

Decisions

三个硬核决策

01

数据不够,就两轨并行

标注又慢又差时,不赌单一路线:快的先筛一批顶上,慢的深挖拉高浓度。像带项目,不像拼体力。

02

281 GB → 4.3 MB:只留人写的

毕设文件夹近 300 GB,九成九是中间模型权重;人写的反思、决策、踩坑记录只有几 MB。删盘时坚决砍 .pt,不碰 .md 和 .txt。

03

不选「最强模型」,选「最不背叛的」

有的模型答错还好,困难时会悄悄换研究方向——比幻觉更致命。豆包因此从毕设工具箱里出局;Qwen 写、Kimi 挑,分工比迷信榜单管用。

AI View

模型观:三个代表性切片

不是选最强模型,是选最不容易在关键节点背叛你的模型。

Qwen · 主笔

长文、中文学术表述的主力。90k 字以内相对稳,适合写段落、统筹章节。

Kimi · 挑刺

专门用来抬杠和审计。大纲交叉验证、代码和论文找茬,审美也在线。

豆包 · 出局

不是笨,是「温柔地把你带偏」——困难时建议换题、换路线。写毕设这种不能换方向的活,禁用。

「别人只说好不说坑——这个栏目才会告诉你的事。」
「沉淀只写决策 + 数字 + 下一步,感慨留给生活。」
「路由器 + 质检员,不是甩手掌柜。」
What's Next

火还没灭:三条线在跑

Release Notes 不是终点。下面是我接下来几个月会诚实更新的方向。有进展才写进站,没进展就继续 Phase 0。

Phase 0 · 需求验证

审计辅助工具

把毕设里练会的「分工 + 交叉验证 + 可审计输出」,平移到真实审计需求:底稿核对、抽样追踪、异常清单。先跑通最小闭环,再谈产品化。目前在梳理一线工作流,没有 demo 不吹。

Agent 就绪

求职投递

找岗、改简历、投递的 Agent 线已搭好,IANG 窗口还长。等有第一批真实投递和面试反馈,再在 Career 补时间线,不提前写漂亮话。

模板 B 定稿

视频栏目

首支「用 AI 写 PPT」已上线,竖屏信息卡 + 交叉验证大纲是固定打法。下一支有片子上线就更新 Studio,说坑比说好更重要。

Takeaways

带走这三条原则

  1. 先建「自己能读懂的仓库地图」,再让 AI 写。
  2. 按「会不会在关键时刻背叛你」选工具,不是看排行榜。
  3. 对外说人话、留数字、敢写坑;论文和网站都是。

这不是回顾,是操作系统的 Release Notes。