我把做视频里最烦的那些活儿,拆成了十五个 skill

作者:Jian Shuo Wang 发表于:2026-05-14 09:00 · 未分类

我把做视频里最烦的那些活儿,拆成了十五个 skill

上周我录了一期《逐浪 AI》播客,一个多小时。

录完,我想干三件事:从里面剪三四条短视频发视频号;把讲得最清楚的一段配上西班牙语——我在学西语,想听听自己的话用西语说出来是什么样子;最后把成品传到 YouTube。

放在两年前,这是我一整天的活儿。而且是我最不喜欢的那种活儿——重复、琐碎、每一步都得我亲手点鼠标。

现在我做的事情变了。我把要做的事,用一句话说给 Claude 听,它去调用我写好的那些 skill,自己跑完。

这十五个 skill,名字都以 wjs- 开头——就是我名字拼音的缩写。今天我想把它们怎么用,讲清楚。

一、先说清楚:它不是一条流水线,是一组"工位"

你可能会以为这是一条焊死的流水线:视频进去,成品出来。

不是。它是一组工位。

每个 skill 只做一道工序。你可以让它们一个接一个跑完整条线,也可以只点亮其中某一个。

有个细节是我故意这么设计的:每个 skill 的名字,都是一个"动作"。transcribing(转写)、translating(翻译)、dubbing(配音)、burning(烧字幕)、segmenting(切片)、overlaying(叠加)、reframing(转横竖屏)……

为什么?因为一个 skill 想做的事情越少,它就越靠得住,也越容易跟别的 skill 接上。一个 skill 的名字,其实就是它对外的接口。

十五个,我把它分成五组。

二、第一组:把视频换一种语言(5 个)

这一组是给视频做"本地化"的——比如把我一段中文播客,变成带西语字幕、甚至西语配音的视频。

wjs-transcribing-audio —— 把音频或视频转成带时间戳的字幕(SRT)。中文走豆包的识别,其他语言走 Whisper。你就说"帮我把这个视频转成字幕"。

wjs-translating-subtitles —— 把字幕翻成另一种语言,会按标点重新断句,让每一句字幕在该断的地方断。要中英双语也行。

wjs-dubbing-video —— 按翻译好的字幕,生成对得上时间的配音,让视频真的"说"那门语言。

wjs-burning-subtitles —— 把字幕烧进画面,或者做最后的合成:字幕、配音、原声垫底,一次编码完成。

wjs-localizing-video —— 上面四个的总调度。你要"一条龙",就用它;只要单独一步,就直接点那一步。

这里有个我自己的用法心得:能直接用子 skill,就别用总调度。 你说"帮我把这个西语视频做成中文字幕加配音",用 wjs-localizing-video;但如果你只是想要一个字幕文件,直接说"转写"就好。少绕一层,边界更干净。

三、第二组:把一条长视频,变成能发的短视频(3 个)

wjs-segmenting-video —— 把一个多小时的访谈、讲座、播客,按主题切成 3 到 6 条能独立成立的短片。它只负责"切",切完交给下一棒。

wjs-overlaying-video —— 做后期:加 AI 生成的封面、跟着字幕走的动态字幕、关键处的动画、章节小标签、片尾的关注引导。它接在切片后面,把毛坯片变成能直接发的成品。

wjs-reframing-video —— 横屏转竖屏(或者反过来)。它不是简单裁中间,是会追着"正在说话的那个人"裁——靠的是嘴在不在动。所以画面里有好几个人,镜头也不会跟丢。

四、第三组:多机位(2 个)

我录播客经常是好几个设备同时录——一台相机、一个单独的录音笔。

wjs-syncing-multicam —— 把这几路录音录像对齐到同一条时间线上。它只产出一个很轻的 .sync.json 小文件,原始素材一帧都不动。

wjs-editing-multicam —— 在对齐之后,把多个机位合成一条片子,按声音大小自动切机位,还能加个画中画。

五、第四组:发出去(3 个)

东西做好了,得发出去——这一步也常常是最磨人的。

wjs-uploading-video —— 批量传 YouTube。标题、简介、标签可以从一个 UPLOAD_META.md 文件里读,不用一个个填。

wjs-publishing-wechat —— 写或者发公众号文章:润色、配题图、配解释图,准备好上传到后台。说句实话,这篇文章本身,就是用它在帮我。

wjs-promoting-skills —— 帮我把这些 skill 本身推广出去:研究别人怎么在 skill 市场上做营销,生成推广计划,自动发推。

六、第五组:两个不做视频的(2 个)

wjs-auditing-project —— 当我觉得"这个项目好像哪里不对、但说不清"的时候,让它做一次体检:没合并的分支、卡住的 PR、挂掉的自动构建、计划和现实的偏差……它先只看不动,列一张清单给我,我点头了它才动手。

wjs-eating-and-growing —— 这个最特别,它不是干活的,是陪我反思的。我栽了一个跟头、或者发现自己又一次掉进同一个坑,就用它走四步,把"吃过的堑"真的变成"下次的一个具体动作"。

七、那到底怎么"用"?

讲了半天每个 skill 做什么,说回最实际的问题——你怎么把它叫出来。

其实就两种方式。

第一种,你什么都不用记,直接说人话。 你跟 Claude 说"帮我把这个视频切成几条短视频",它自己会认出来该用 wjs-segmenting-video。每个 skill 的说明里我都写了一串触发词——“切成几段"“做 SRT"“加封面"“横转竖”——你说到了,它就醒了。

第二种,你明确知道要哪个,就直接打 /wjs-用途。 比如 /wjs-transcribing-audio。

我自己 90% 的时候用第一种。因为我常常不记得 skill 的全名,但我永远记得我想干什么。

回到开头那期播客。我实际做的,是这样一句话一句话喂过去的:

把这个录音转成字幕 → 切成四条短视频 → 第二条横转竖 → 给它们加封面和字幕 → 把讲 AI 教育那段配上西语 → 全部传到 YouTube。

中间我去江边跑了个步。回来,活儿干完了。

八、几个我自己踩过的点

一是,每个 skill 只做一件事,是优点,不是麻烦。 你可能会嫌"为什么不做成一个按钮”。但我宁可要十五把只做一件事的刀,也不要一把号称什么都能干的瑞士军刀——前者每一把都快,而且坏了好修。

二是,先想清楚你要的是哪一步。 这套东西最容易的误用,是不管要什么都喊"总调度”。其实你要的常常只是中间某一步。

三是,它替代的是手,不是判断。 切成几条、留哪几段、封面什么调性——这些还是我定。skill 把我从"点鼠标"里解放出来,不是从"想清楚"里解放出来。这两件事,我一直分得很清楚。

做完这一圈,我自己最大的感受不是"快了”。是另一件事:那些我一直拖着不想做、因为太烦的事,现在我愿意做了。一期播客以前我可能懒得剪,现在顺手就剪了。能做的事情变多,往往不是因为你变强了,是因为某件事的"门槛"被人搬走了。

这十五个 skill,就是我给自己搬门槛的方式。

后注:这些 skill 都已经发布在我的 claude-skills 仓库里了,名字以 wjs- 开头的就是。如果你也用 Claude Code,可以直接拿去用——有不顺手的地方,告诉我,我们一起改。毕竟,它们也是一天一天长出来的,还没长完。