
四百年前,莎士比亚在《温莎的风流娘们》里写下一句传世之言:“The world is your oyster”——世界是你的牡蛎,等你亲手打开。2026年的春天,阿里 ATH 事业群的团队用这句话命名了一款 AI 产品:Happy Oyster(快乐生蚝)。
别被这个滑稽的名字骗了。在你还在为 Sora 生成 10 秒视频而惊叹的时候,生蚝已经悄悄做了一件更疯狂的事:它不生成视频,它生成一整个世界。一个你可以走进去、四处走动、跟环境交互、用文字指令实时改写的数字世界。
世界模型:从视频生成到实时演算的质变
2025年被称为“视频生成元年”,Kling、Seedance、Runway 各领风骚,核心范式是‘写 prompt → 等抽卡 → 收到成片’。这个流程本质上是一种高度智能化的彩票系统——你投注一段文字,AI 给你一段视频,不满意就再来一次。
Happy Oyster 彻底抛弃了这个范式。它不给你一段视频,而是给你一个实时演算的数字世界。你在里面可以用 WASD 键控制角色走动,可以切换第一人称或第三人称视角,可以踩在草坪上听到沙沙声,蹚过溪水听到哗哗声——这一切画面和声音,都是 AI 逐帧实时生成的,而非预先渲染。
这种‘世界模型’的技术难度,远超传统视频生成。视频生成只需要在时间维度上保持一致性,而世界模型需要在空间、时间、物理、因果四个维度同时做到连贯。更关键的是,它必须实时响应你的操作,延迟不能超过人类感知的阈值。这不是在画一幅画,这是在造一个活的世界。

▲ Snowboarding 场景——AI 实时生成的雪地滑行世界
双模式体验:当导演还是当玩家?
Happy Oyster 提供两种核心模式,对应两种完全不同的创作体验:
漫游模式:无边际的开放世界
这是最让我震撼的部分。上传一张参考图(或者直接用提示词描述),等大约 30 秒,AI 就会为你生成一个完整的游戏世界——不仅包含场景,还自动创建一个游戏角色。你可以用键盘控制这个角色在整个世界里探索,没有空气墙,没有场景崩坏。
- 风格极度多样:像素风、3A 写实、水墨仙侠、赛博朋克——它都能驾驭。我试过把原神风格的角色放进《荒野大镖客》的世界里,也试过水墨风人物在现代都市漫步,融合效果出人意料地自然。
- 人物与场景完全解耦:可以单独更换人物、调整服饰,也可以单独修改环境光影天气,不用整体重新生成。这种解耦设计在当前的世界模型里极为罕见。
- 物理碰撞靠谱:实测中角色怼到物体上会自动弹开,不会穿模。这在 Genie 3 等竞品中是老大难问题——撑不过 30 秒就开始乱穿。

▲ Pilot Crocodile——一只鳄鱼在街上游荡,动效逼真到有点荒诞
导演模式:实时操控叙事的权力
如果说漫游模式是“玩家”,那导演模式就是“上帝”。你可以像真正的导演一样,通过文字指令实时操控镜头运动、角色行为、剧情走向甚至整体音画氛围。
这个模式最让我惊讶的是它的上下文理解能力。它不是简单粗暴地执行每一条指令,而是会思考前后指令之间的因果关系,自动插入适时的情绪转变和台词来衔接你的指令。你让它“让女主角转身”,它不只是让角色转身——它会设计一个转身的原因,配上合理的表情变化和背景音乐的转折。这种“活人感”在当前的 AI 产品中极为少见。
导演模式还有一个很聪明的 Events 参数,控制自动事件密度:
- Peaceful——低密度,画面不会被随机事件打断,适合精细运镜
- Regular——中等密度,偶尔有意外惊喜
- Dramatic——高密度,系统自动生成冲突性极强的剧情,适合灵感枯竭的时候“碰碰运气”

▲ Aetheria Meadows——宁静的奇幻草甸世界
技术拆解:流式生成 + 状态复用,稳住三分钟的秘密
Happy Oyster 最核心的技术突破在于流式生成框架。它不是一次性生成整段视频,而是一帧一帧边跑边改——这就好比你边走边修路,而不是先把整条路修完再走。这大幅降低了计算压力,也让实时交互成为可能。
但流式生成有一个致命的天敌:内容漂移(content drift)。长时间逐帧生成,AI 容易“忘记”前面生成过什么,导致画面逐渐崩坏、角色面目全非、场景面目可憎。为了解决这个问题,生蚝搭载了持续状态复用机制——它会牢牢记住之前生成的场景结构、角色外观和空间关系,每一步都基于前面的记忆渐进式更新。
实测效果确实让人印象深刻:导演模式可连续生成 3 分钟 720p 视频,漫游模式支持 1 分钟以上的实时移动,全程没有明显的场景崩坏。对比一下竞品的数据:
- Marble(李飞飞的 World Labs):基本只能静态观赏,一移动就崩,没有真正的实时漫游
- Genie 3:官方未给明确时长,实测撑不到 30 秒就开始穿模
- Seedance 2.0:最长 15 秒(但它走的是传统文生视频路线,不严格算世界模型)
- Kling 3.0:单次 5-10 秒,拼接最长 2 分钟
三分钟。这个数字在当前的世界模型赛道里是碾压级的。
另一个技术亮点是音视频联合生成。画面和声音在同一个模型里同步生成——踩草地有沙沙声,蹚溪水有哗哗声,走进恐怖场景氛围音自动变阴森。传统流程里,视频生成和音效设计是两套独立工序,后期合成时经常音画割裂。生蚝把这个痛点从模型层面解决了,对于短视频创作者来说省去了大量的后期工作。

▲ Eastern Swordsman——水墨武侠风也能跑出来
竞争格局:世界模型赛道的牌桌正在成型
世界模型是一个极其前沿但也极其冷门的赛道。目前全球能拿出可用产品的团队一只手数得过来:
- World Labs(李飞飞):2025年11月发布 Marble,商业化世界模型的首个产品,但体验更像 3D 静态空间,靠近或拉远就崩坏,像个不太好的谷歌街景
- Genie(DeepMind):技术路线最受关注,但 Genie 3 的实际稳定性远不如演示视频
- 混元(腾讯):走的是另一条路线,更偏向游戏资产生成
- Happy Oyster(阿里 ATH):综合体验最完整,兼具交互性、时长和稳定性
值得注意的是,阿里在这个赛道上并不是“第一次”发力。此前 Happy Horse 在 Artificial Analysis 平台上的评分超过 Seedance 2.0,说明 ATH 事业群在视频生成基础能力上已经有很深的技术积累。Happy Oyster 更像是把这些能力往“世界”维度的一次升维攻击。
我的判断:不只是生成工具,是下一代交互范式
我花了不少时间体验 Happy Oyster,越用越觉得这个产品的野心远不止“做视频”。三个信号让我做出这个判断:
第一,它在布局具身智能。实时理解三维空间、物理关系、因果关系——这些能力恰好是机器人需要的。一个能实时渲染世界的 AI,和一个能在真实世界里导航的机器人,底层需要的是同一种“世界理解”能力。
第二,它在准备虚拟社群。产品团队明确表示要构建虚拟现实的社交空间。这不是“做内容”的思路,这是“做平台”的思路——它想成为每个人头上的那块《头号玩家》里的绿洲。
第三,音视频联合生成 + 实时交互的组合,天然指向实时互动娱乐。不是生成一个视频发到抖音,而是让你在 AI 生成的世界里直播、玩游戏、拍短剧。这可能是直播和游戏行业的下一个基础设施。
文字模型解决了 AI 听懂话、会表达的问题;图文视频模型解决了 AI 看得懂、画得出画面的问题;而现在的世界模型,就是让 AI 真正懂空间、懂物理、懂时序、懂因果,拥有模拟现实世界的能力。这是从“工具”到“环境”的跃迁。
冷静一下:当前的限制与不足
说了这么多优点,也要指出目前 Happy Oyster 的几个现实限制:
- 分辨率天花板:目前最高 720p,离影视级画质还有明显差距。流式生成的特性决定了分辨率和帧率是天然瓶颈。
- 等待时间:每次生成新世界需要约 30 秒的初始化时间,虽然之后的交互是实时的,但这个“冷启动”时间对于即兴创作来说还是偏长。
- 仍然在 waitlist 阶段:产品尚未完全开放,能体验到的人有限,很多边界情况还没被大规模测试过。
- 算力成本未知:实时流式生成对 GPU 的消耗极大,商业化定价策略将直接决定这个产品能走多远。
但说实话,这些问题没有一个是我认为“做不了”的——720p 会升到 1080p 再到 4K,初始化时间会从 30 秒降到 5 秒,算力成本会随着芯片迭代持续下降。技术问题总有解法。真正值得关注的是:这个方向本身对不对。
我的答案是:对。而且可能是当前 AI 领域里最让人兴奋的“对”之一。

▲ The Memory Cleaner——Happy Oyster Gallery 中的创意场景之一
Happy Oyster 目前进度还处于早期,可通过官网 happyoyster.cn 申请 waitlist。如果你对 AI 世界模型、实时交互式视频、或者只是想体验一下“踩在 AI 生成的草地上”的感觉,值得一试。
分享到:
