做直播、录视频的小伙伴,应该都被“实时字幕”折磨过吧。 要么识别慢半拍,要么样式丑到爆,更离谱的是——想改个字体颜色,都得在一堆奇怪菜单里钻来钻去,改完还容易把整个场景搞崩。
最近刷 GitHub 的时候,发现一个有点狠的开源项目:Curses。 一句话形容,就是专门给 OBS / VRChat / Twitch / Discord 做的“可爆改”的语音字幕神器,把字幕当海报在做那种。
它支持的语音识别引擎也不拉胯:微软 Azure、Speechly、Deepgram,甚至浏览器自带的 WebSpeechAPI 都能用。 意思就是,你可以根据自己预算和延迟要求自由切引擎,不被某一家云厂商“套牢”。
更好玩的是,它不只是“说话→出字”这么简单。 Curses 还能反向来一手:把文字再丢给 TTS(文本转语音)念出来,支持微软 Azure、Uberduck、TikTok、Windows 自带 SAPI,还有浏览器的 WebSpeechAPI,做个“AI 读弹幕”完全 OK。
很多人嫌市面上的字幕样式一个比一个土,这工具在这块就有点把牙膏挤爆的意思了。 颜色、字体、阴影、背景纹理这些基础配置不用说,打字机动画、音效、粒子特效、甚至直接写 CSS 都能玩。 你要是前端出身,完全可以把字幕当网页来写,直播间整成大片片头那种质感不是梦。
字体库也很豪横,直接打通了 Google Fonts,上千种免费字体随便选。 从严肃演讲、技术分享,到二次元直播、搞笑电台,都能找到对味的那一款,不用再到处扒字体包、担心授权问题。
Curses 也不是只盯着主播麦克风这一条输入。 它还支持把 Twitch 聊天消息当成字幕来源,顺带能显示 7TV / FFZ / BTTV 这些表情包,观众发的梗图表情,真·能直接飘到画面上。 你这边语音识别的结果,也可以自动同步发到 Twitch 聊天或者指定的 Discord 频道,让听不清直播的人跟着文字走。
VRChat 场景它也考虑到了。 支持 KillFrenzy Avatar text 和官方 chatbox,把你说的话挂在头像头顶那种,社恐玩家突然有了“外挂式发言器”,语音+文字双重保险。
比较照顾强迫症的是它的“场景系统”。 你可以提前设计好多套字幕方案:比如正经分享用简洁白底黑字,唱歌用霓虹风,打游戏用电竞风。 然后通过 obs-websocket,和 OBS 的场景联动起来——你在 OBS 切场景,字幕样式跟着自动切,这波操作我服。
搭建上,因为是开源项目,肯定比那种“下一步下一步”安装包多几步折腾。 但好处也明显:跨平台、可自托管、想改逻辑就改逻辑,没有乱七八糟的付费墙,玩得越久越香那种。
GitHub地址:github.com/mmpneo/curses
