AI还能拼乐高?传说中的LegoGPT到底是怎么回事,看完这篇就懂了!

你可能听说过 ChatGPT 会写诗、能编程、能画画,但你见过 AI 直接“拼”乐高积木吗?

最近,卡内基梅隆大学(CMU)的朱俊彦教授团队发布了一项炸裂的新研究:他们开发出全球首个基于文本生成物理稳定 LEGO 模型的大模型,取名——LegoGPT

一句话总结

你说:“我想要一个赛博朋克风格的乐高沙发。”

它就能输出一个你能现实拼出来、不塌不歪的乐高沙发,不仅你能搭,机器人也能拼!

%title插图%num

LegoGPT 有多厉害?

LegoGPT 不像我们熟悉的那种图像生成模型,它不是把你的提示“画”出来,而是直接生成乐高拼搭指令,一步一步告诉你要用哪块积木、放在哪个位置、怎么搭不碎。

这项能力背后依赖两个核心技术支撑:

  1. 位置精准的积木预测系统:像 GPT 预测“下一个词”一样,它预测“下一块砖该放哪”;
  2. 物理感知回溯机制:每加一块,系统都会判断这块是否稳定、是否与其他积木冲突,如果有问题,就立刻“撤销”,重新选块。
%title插图%num

效果呢?

  • 如果不加机制,只有 24% 的结构能保持站立;
  • 加了机制之后,模型生成结构的稳定率提升到惊人的 98.8%。

它是怎么做到的?

LegoGPT 的底层原理,其实借用了我们熟悉的自然语言处理模型——自回归大模型(autoregressive model)。但它做的,不是“预测下一个词”,而是“预测下一个积木块的尺寸、颜色、坐标位置”。

举个例子

如果你输入“一个日式滑门书柜”,它就会开始一步一步规划:

  • 地板用多大面积、放哪块积木
  • 框架和滑门结构如何安插
  • 最后检查重心和连接点是否稳定
%title插图%num

​只要某块积木的位置不合理、力学不稳,它就会自动“悔棋”,并尝试新的搭法。这套机制非常接近人类设计师的搭建思路,但它的执行效率和反复试错能力,远远超过人类。

数据是怎么训练出来的?

LegoGPT 并不是空手起家,它背后是一个名为 StableText2Lego 的超大数据集:

  • 包含 47000 多种乐高结构
  • 涵盖 ShapeNet 中 21 类常见物体(如椅子、桌子、床、沙发等)
  • 每种结构都附带 说明文字 + 稳定性评分 + 拼搭路径
%title插图%num

这些积木结构不是随便拼拼,而是从真实 3D 对象建模,再转换成乐高拼搭格式,还通过 GPT-4o 自动生成多角度图像描述来训练模型。

因此,它不仅能搭出“形”,还能理解“语意”,比如“现代简约沙发”跟“巴洛克风格沙发”,LegoGPT 是能区分出搭法的。

那它未来能干什么?

  • 帮设计师生成创意结构草图
  • 辅助乐高爱好者搭建原创作品
  • 辅助教学,比如空间感、力学原理、可视化表达等

甚至未来可以直接接入乐高 Studio 或 CAD 系统,把 AI 生成的模型导出为数字说明书或渲染模型,真正从“想法”直通“拼搭”

%title插图%num

一句话总结

这不只是一个“拼乐高”的 AI,而是一套能理解、生成、验证、搭建的多模态构造模型系统

如果说图像生成是 AI 帮你画出梦境,那 LegoGPT 就是 AI 在帮你把梦拼出来了

*资料来源:arxiv

评论留言