探索期
整盘丢给 AI,以为能一键搞定
临时脚本满地都是。今天跑分 0.67,明天同一份代码变 0.55。AI 忘了昨天约定,我也忘了文件放哪。那时真以为「会提问」就够了。
Three Intense Months · Field Notes
2026.2 — 5 · 从 Vibe Coding 到个人 AI 操作系统的 90 天
主职带娃,兼职读研写论文。极限多线程下,我顺手给自己砸了一项硬指标。
全年 51 周,每周 5 天、每天 30 分钟以上的高强度英语对话。
没有节假日,没有病假妥协。51/51 周打卡,满分全勤。
不是更会写 Prompt,而是换了一套和 AI 共事的方法。下面四条约束,几乎贯穿所有决定。
整盘丢给 AI,以为能一键搞定
临时脚本满地都是。今天跑分 0.67,明天同一份代码变 0.55。AI 忘了昨天约定,我也忘了文件放哪。那时真以为「会提问」就够了。
先建地图,再派活
给整个毕设文件夹建知识库:术语什么意思、数据口径怎么锁、一次写几章。花两小时把「基准真相」立住,后面 AI 才不至于各说各话。
我当包工头,模型当工种
写长文找 Qwen,挑刺找 Kimi,写代码用 Copilot。谁会在关键时刻「换题、换方向」,直接拉黑。我负责派活、验收、拉闸。不是和 AI 聊天,是管一支外包队。
「机器是很聪明、博学、有审美、跑得快、有时会犯傻的实习生。」—— 我对 AI 的定位,不是神,是团队。
做了啥、当时怎么想、哪里翻车、最后带走什么——尽量说人话。
论文是结果,但这三个月真正耗心力的是:数据怎么来、模型怎么训、哪里不行敢不敢写、答辩怎么让人听懂。详见 Research。
从懂车帝、小红书爬用户评论,2,226 条原始语料一路洗到 427 条可训练样本——中间每一刀都有记录,不是「AI 说能训就训」。
标注质量不够时,我没有赌单一路线,而是「快筛一批、深挖一批」两轨并行:快的先补量,慢的拉高密度。这是像带项目,不像拼体力,不是熬夜堆工时。
模型分两步训:先打通用语言底子,再针对「产品评价 + 营销意图」联合微调。做了多轮消融实验,发现序列标注那一层(CRF)贡献最大——加不加它,分数差一截,这不是靠感觉,是跑出来的。
独立测试集 Span-F1 到 0.6705,营销标签准确度 0.68。427 条训练样本与 47 条外部测试分开,避免背答案;论文、答辩材料和代码里的数字对齐过,才敢写进正文。
毕设文件夹不能只堆脚本和权重。我建了一套个人知识库,把每次试验的数据版本、脚本路径、指标结果串成一张地图——写第 5 章时不会忘了第 3 章用的哪个数据版,术语也不会前后打架。
后来用「论文亮点」批量找文献、工程化写章节,看起来打炮打蚊子,但这套降维打法能迁移到别的项目——方法链接找得巧,创新点自己就冒出来。
给直线领导汇报够用,不是发布会级别。和视频里一样,核心就四步——完整演示见 Studio「用 AI 写 PPT」(B 站完整版 →):
本地 Agent 别指望一键成品;输出连断三次就换策略——答辩 PPT 改成分批生成,每批人工核对再往下走。
毕设对我不是「让 AI 写一篇论文」。我是路由器 + 质检员:Qwen 写段落,Kimi 专门挑刺,术语和数字口径由我锁死。写论文像管生产线——原料(数据)→ 工艺(训练)→ 质检(交叉验证)→ 出厂(答辩),一环不能省。
曾把 9 章丢给模型,指望一次出稿。结果术语前后打架、满篇「首先其次最后」。后来改成每次只写 2 — 3 章,把上下文控制在 90k 以内,写完人工勾选再继续。
磁盘爆满时扫描发现:281 GB 全是中间权重文件,人写的反思和决策才 4.3 MB。差点被 AI 清理建议误删。从此定下「砍权重、不砍心血」。
同一套 SOP,我帮一位同学极限交付:3 小时 内完成模型训练调优、数据梳理和论文初稿;结合论文排版 SOP 指导 HTML,24 小时 内交出相对质量的论文 + 答辩 PPT。
别人一周的活,按我的 SOP 一天内保质交付!
「先建自己能读懂的仓库地图,再让 AI 写——比多开十个聊天窗口有用。」
沉淀:做研究像做项目,诚实比漂亮数字更重要。
Hermes(本地 Agent 框架) 里搭了 8 个角色、两条线:一条帮求职(找岗位→改简历→投递),一条帮做内容(写稿→分镜→成片→更新网站)。毕设里练会的「分工 + 验收」,在这里复用。
跑通首支栏目视频「用 AI 写 PPT」;个人站六页上线;飞书群自动推英语和菜谱;排查记忆系统偷偷烧最贵模型 Token 的坑。
视频大纲也用交叉验证:多个 AI 各出一版 → 互相挑错 → 最强模型融合——和毕设写论文是同一套逻辑。香港家里乱、没有背景布,竖屏视频定成「大字信息卡 + 右下角小窗」,PPT 大、人像小,不跟环境硬刚。
视频合成试过屏幕直录 + 显卡加速,WSL 和 Windows 管道不通,折腾很久。最后改成浏览器录 HTML 幻灯片 + 本地 FFmpeg 合成——丑一点但能交付。TTS 配音听一遍就扔,最终用我自己重录,人味不能省。
「做完,比用最潮的技术方案做完更重要。」
沉淀:给 AI 派活要像带团队——有物证、有节点、有预算。
标注又慢又差时,不赌单一路线:快的先筛一批顶上,慢的深挖拉高浓度。像带项目,不像拼体力。
毕设文件夹近 300 GB,九成九是中间模型权重;人写的反思、决策、踩坑记录只有几 MB。删盘时坚决砍 .pt,不碰 .md 和 .txt。
有的模型答错还好,困难时会悄悄换研究方向——比幻觉更致命。豆包因此从毕设工具箱里出局;Qwen 写、Kimi 挑,分工比迷信榜单管用。
不是选最强模型,是选最不容易在关键节点背叛你的模型。
长文、中文学术表述的主力。90k 字以内相对稳,适合写段落、统筹章节。
专门用来抬杠和审计。大纲交叉验证、代码和论文找茬,审美也在线。
不是笨,是「温柔地把你带偏」——困难时建议换题、换路线。写毕设这种不能换方向的活,禁用。
「别人只说好不说坑——这个栏目才会告诉你的事。」
「沉淀只写决策 + 数字 + 下一步,感慨留给生活。」
「路由器 + 质检员,不是甩手掌柜。」
Release Notes 不是终点。下面是我接下来几个月会诚实更新的方向。有进展才写进站,没进展就继续 Phase 0。