你可能听说过 ChatGPT 会写诗、能编程、能画画，但你见过 AI 直接“拼”乐高积木吗？

最近，卡内基梅隆大学（CMU）的朱俊彦教授团队发布了一项炸裂的新研究：他们开发出全球首个基于文本生成物理稳定 LEGO 模型的大模型，取名——LegoGPT。

一句话总结：

你说：“我想要一个赛博朋克风格的乐高沙发。”

它就能输出一个你能现实拼出来、不塌不歪的乐高沙发，不仅你能搭，机器人也能拼！

LegoGPT 有多厉害？

LegoGPT 不像我们熟悉的那种图像生成模型，它不是把你的提示“画”出来，而是直接生成乐高拼搭指令，一步一步告诉你要用哪块积木、放在哪个位置、怎么搭不碎。

这项能力背后依赖两个核心技术支撑：

效果呢？

它是怎么做到的？

LegoGPT 的底层原理，其实借用了我们熟悉的自然语言处理模型——自回归大模型（autoregressive model）。但它做的，不是“预测下一个词”，而是“预测下一个积木块的尺寸、颜色、坐标位置”。

举个例子：

如果你输入“一个日式滑门书柜”，它就会开始一步一步规划：

只要某块积木的位置不合理、力学不稳，它就会自动“悔棋”，并尝试新的搭法。这套机制非常接近人类设计师的搭建思路，但它的执行效率和反复试错能力，远远超过人类。

LegoGPT 并不是空手起家，它背后是一个名为 StableText2Lego 的超大数据集：

这些积木结构不是随便拼拼，而是从真实 3D 对象建模，再转换成乐高拼搭格式，还通过 GPT-4o 自动生成多角度图像描述来训练模型。

因此，它不仅能搭出“形”，还能理解“语意”，比如“现代简约沙发”跟“巴洛克风格沙发”，LegoGPT 是能区分出搭法的。

甚至未来可以直接接入乐高 Studio 或 CAD 系统，把 AI 生成的模型导出为数字说明书或渲染模型，真正从“想法”直通“拼搭”。

一句话总结：

这不只是一个“拼乐高”的 AI，而是一套能理解、生成、验证、搭建的多模态构造模型系统。

如果说图像生成是 AI 帮你画出梦境，那 LegoGPT 就是 AI 在帮你把梦拼出来了。

*资料来源：arxiv