乐高积木也有AI大模型!CMU华人团队研发LegoGPT打造包含47000个乐高结构数据集
积木,对于序列中的每一块新积木,系统都会确保它不会与现有的积木发生碰撞,并且能够放入搭建空间之内。完成设计之后,
如果积木会在现实世界中倒塌,系统会识别出第一块不稳定的积木并加以回溯,进而将它和所有后续积木移除,然后再尝试不同的方法。这种“基于物理的回溯”方法至关重要,没有它的时候只有24%的设计能保持站立,而有它的时候保持站立的比例高达98.8%。
为了证明本次设计在现实生活中的可行性,研究人员让机器臂组装了由AI创建的LEGO模型。他们使用一个带有力传感器的双机器人手臂系统,根据AI生成的指令来拾取和放置LEGO积木。
视频由LEGOGPT生成的LEGO结构能在现实世界中实现逐块搭建(来源:)
参加实验的真人测试者也以手动方式构建了一些积木,这表明AI能够生成真正可构建的模型。
该团队在论文中指出:“我们的实验表明,LEGOGPT能够生成稳定、多样且美观的LEGO设计,这些设计与输入的文本提示高度一致。”其还证明本次方法优于已有的大模型骨干模型,也优于几种最新的“文本到3D”的生成方法。
在打造LEGOGPT的过程中,研究团队构建了一个大规模、物理稳定的LEGO设计数据集,并提供了与之相关的说明文字。同时,他们还训练了一个自回归大模型,通过预测下一个token来预测下一块要添加的积木。
为了提高设计的稳定性,他们在自回归推理过程中采用有效性检查和物理感知回退机制,利用物理定律和拼装约束来剔除不可行的token预测。
目前,该团队已经公布了数据集StableText2Lego,其中包含超过47,000个LEGO结构,这些结构由超过28,000个独特的3D对象组成,并附有详细的说明文字。同时,代码和模型已在GitHub上发布()。
众所周知,LEGO已被广泛用于娱乐、教育和艺术创作。由于所有标准组件均可被随时获取,因此它也可以作为一个可复现的研究基准。
由于手动设计需要耗费较大精力,故曾有人通过开发自动化算法来简化流程并生成了不错的结果。然而,此前方法主要基于给定的3D对象来创建LEGO设计,或者仅仅关注于单一的对象类别。
基于此,该团队希望开发一种能够直接根据文本提示生成LEGO设计、同时在设计上兼具物理稳定性和可搭建性的方法。
因此,他们认为需要训练一个生成模型,并让该模型能够生成以下设计方案:首先,要具备物理稳定性,即基于LEGO基板构建出来的结构完整性强、无悬空或坍塌。其次,要具备可搭建性,即可以和标准LEGO积木兼容,并能由真人或机器人实现逐块拼装。
LEGOGPT 的核心思想是将原本用于下一个token预测的自回归大模型重新用于下一个积木预测。研究团队将LEGO设计问题表述为自回归文本生成任务,其中下一块积木的尺寸和摆放位置以简单的文本格式指定。
为了确保生成的结构既稳定又可构建,他们在训练过程和推理过程中都施加了考虑物理特性的拼装约束。
在自回归推理过程中,研究团队通过有效性检查和物理感知回退来确保可行性,以便确保最终的token符合物理定律和拼装约束。
实验表明,所生成的设计既稳定又多样,并且具有视觉吸引力,同时符合输入的文本提示。这种方法同时优于采用和不采用上下文学习的预训练大模型,也优于此前基于网格3D生成的方法。
研究人员在论文中表示,一般来说这类工作包含三个步骤:第一步,使用文本到图像模型生成图像。第二步,将图像转换为体素。第三步,在不考虑物理约束的情况下,使用启发式方法创建物理LEGO积木模型。相比之下,在无需中间图像或体素表示的情况下,本次方法也能执行文本到LEGO积木的任务。
由于训练现代自回归模型需要大规模的数据集,为此研究团队推出了StableText2Lego,这是一个全新的大规模LEGO数据集,包含47,000多种LEGO结构,涵盖ShapeNetCore数据集中21个常见物体类别的28,000多个独特3D物体。
研究中,他们选择具有多样性和独特性的3D物体类别,同时排除那些类似长方体的物体。每个结构都配有一组文本描述和一个稳定性评分,该评分完美体育365官网 完美平台能够衡量结构的物理稳定性和可建造性。
为了获取每个结构的说明文字,研究团队从24个不同的视角渲染LEGO玩具,并将其组合成一张多视角图像。然后,他们让GPT-4o为这些渲染图生成5种不同详细程度的描述。
据了解,预训练大模型在序列建模和自然语言理解方面表现十分出色,因此他们选择了这类大模型。利用大模型能够针对序列进行建模和理解文本的能力,研究团队针对预训练大模型进行了微调,以便用于LEGO生成任务。
而为了提高设计的稳定性和可构建性,他们在推理过程中采用了逐块拒绝采样和物理感知回退的方法。
与此同时,他们使用LLaMA-3.2-1BInstruct作为基础模型。该模型经过微调之后,能够针对指令提示给出连贯的答案,因此十分适用于基于文本的LEGO设计生成。同时,这一基础模型还能通过上下文学习生成类似LEGO的设计。
虽然本次研究的主要关注点是生成LEGO形状,但是在创意型LEGO设计中,颜色和纹理也发挥着至关重要的作用。因此,他们专门提出一种新方法,该方法既能让单个积木拥有细致UV纹理,也能让单个积木拥有统一的颜色。
实验中,研究人员使用LLaMAMesh、LGM、XCube和Hunyuan3D-2 来从每个提示生成网格,然后通过“LEGO化”将这些网格转换为LEGO格式。
此外,他们将本次方法与预训练模型进行比较,并将这些模型以零样本和少样本的方式加以评估。对于少样本评估,研究团队为模型提供了5个稳定的LEGO设计示例以及说明文字,并计算了所生成设计方案中的“稳定有效结构”所占的比例。
同时,对于每个有效结构,研究团队都计算了其平均积木块稳定性和最小积木块稳定性得分。如下完美体育365官网 完美平台表所示,本次方法在这些指标上优于此前已有的基线方法。
在消融研究中,研究团队展示了拒绝采样和物理感知回退的重要性。如下图所示,拒绝采样消除了无效的积木,比如能够消除那些发生了碰撞的积木。而回退则有助于确保最终生成的积木具备物理稳定性。
如前所述,他们还使用机器人组装了这些由AI模型生成的LEGO设计。具体来说,机器人利用操纵策略和异步多智能体规划器来操纵LEGO积木并构建结构。而且这些由 AI 模型生成的LEGO结构还可以进行人工组装,因此它们在物理上确实是有效的。
下图则展示了LEGO模型的UV纹理化和均匀着色结果,这证明本次方法能够在保留底层几何形状的同时生成多种风格。
首先,由于计算资源有限研究团队尚未探索最大的3D数据集,即本次方法仅限于在21个类别的20×20×20网格内生成设计。未来,他们将在更大、更多样化的数据集上扩大模型训练规模,以便提高对于分布外文本提示的泛化能力。
其次,本次成果目前仅仅支持一组固定的常用LEGO积木,未来他们计划扩展积木库,以便包含更广泛的尺寸和积木类型,从而实现更复杂更多样化的LEGO设计。
同类文章排行
- 壕撒9亿补贴庆九周年!鲁班到家备战双十一“大考”
- 求是网评完美体育网站论员:把这一前无古人的伟大事业不断推向前
- 完美体育网站教育家具采购宿舍上床下桌要注意哪些细节?
- 福建省推动消费品以旧换新行动方案来了
- 40m²小户型单身公寓现代简约风小轻奢中带着个性范!
- 完美体育网站涂战略丨三棵树首家高端全屋定制直营门店面市
- 完美体育网站“修书”的乐趣(遇见)
- 江苏省靖江市举行“行走的理论课堂”活动
- 这是我见过最省钱最简单的装修了花了几万块搞定很值得参考啊
- 不砸不拆110m²精装房改造复古风也太有腔调了
最新资讯文章
- 斯堪维亚进口儿童家具:Lifetime书柜打造孩子的创意智慧
- 阳谷华泰:波米科技项完美体育网站目在正常推进中
- 华为Pura80Ultra
- 人文学院组织师生代表赴新校园参观考察
- 海南出台标准:原则上完美体育网站不超过3000人
- 《晶报》特别报道丨作为科技以智能护理机器人破解养老难题从大浪
- 山东省邹平市发布暴雪红色预警
- 中国科技公司跻身全球健康护理机器人前十强打破行业技术垄断
- 石景山上下床批发厂家折叠床出售单人床卖双层床办公家具桌椅
- 封开县两个中学基础设施补短板建设项目可行性研究报告批复
- 乐高积木也有AI大模型!CMU华人团队研发LegoGPT打造
- 不常用的次卧竟能轻松放大20㎡!绝对不允许错过!这个设计绝了
- 一体化定完美体育网站制!榻榻米书桌衣柜打造实用卧室
- 2025中国办公家具十大品牌系列榜单发布——健康办公新范式激
- 加速推进!力争9月秋季完美体育网站开学正式投入使用
- 将于今年9月开学!大沥新增一所公办初中
- 艺术与传媒设计学院完美体育领导走访学生宿舍
- 4500万元!南侨中学新宿舍楼即将揭幕学生们的生活将如何改变
- 祈福护老公寓详情预约电话祈福护老公寓高端医养结合养老新标杆
- 完美体育网站免疫球蛋白公司有哪几只(202543)