cos 足交 立异效能:工研院集群机器东说念主系统施行室论文被海外东说念主工智能会议ECCV-2024委派
近日,复旦大学工程与应用技能有计划院(简称“工研院”)集群机器东说念主系统施行室(Multi-AGent robotIC systems Lab,简称‘MAGIC Lab’)在欧洲预计机视觉和机器学习会议(The European Conference on Computer Vision,简称‘ECCV’)上发表开集语义三维重建规模的最新有计划效能。题为《O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation》的学术论文被预计机视觉和机器学习规模顶级会议ECCV-2024委派,工研院2022级硕士生铁木尔为第一作家,丁文超后生有计划员和甘中学西宾为通信作家。
论文简介:
在机器东说念主应用中,在线构建敞开式语义场景至关伏击,因为这需要敞开词汇的交互式场景相连。频年来,神经隐式默示为在线交互式建图提供了一个有出息的标的。可是,将敞开词汇场景相连才智应用到在线神经隐式建图中仍然靠近三大挑战:衰退局部场景更新才智、空间端倪语义分割迁延以及难以保握多视角一致性。为此,咱们提议了O2V-Mapping,它愚弄基于体素的语义和几何特征创建敞开语义场,从而在在线进修经过中允许局部更新。此外,咱们愚弄一个基础模子进行图像分割,以索求对象级实例的说话特征,从而收场了了的分割界限和端倪语义特征。为了在不同视角下保握3D对象属性的一致性,咱们提议了空间自合适体素调遣机制和多视角权重采用才略。在敞开词汇对象定位和语义分割中闲居施行收尾标明,O2V-mapping在收场说话场景的在线构建的同期耕种了3D物体分割准确性,越过了之前的来源进才略。
本文主要职责:
频年来,基于NeRF的隐式默示由于其高保真重建质地而被闲居应用于映射。可是,仅使用传统神经隐式默示衰退语义信息。现存的语义映射才略主要依赖手动标注来获取语义信息,这种才略职责量强大,而况得回的语义信息受限于有限的语义标签类别数量。敞开词汇语义具有零样本获取语义信息和无放弃的语义类别数量的上风,这关于合适复杂场景至关伏击。最近的技能尝试将CLIP和DINO等敞开集语义说话特征镶嵌到神经发射场中,收场了基于神经隐式默示的敞开词汇新视角合成(NVS)。
在敞开集语义场景相连方面,常见的问题在于语义信息随不同圭臬变化。举例,物体不错被领略注解为门,而门把手则是焦点变化后的领略注解。此外,语义迁延性闲居存在,在物体边际无法得回了了的语义界限。要害原因在于大巨额现存职责靠拢于像素级语义,衰退对象级语义相连。此外,张婉莹系在在线映射经过中,从不同角度不雅察归拢物体可能会导致对该物体赋予不同的语义。上述问题导致了语义映射经过中的时空迁延性。
在本文中,咱们提议了O2V-Mapping,一种高效且准确的在线构建敞开集语义场景的新才略(如图1)。
cos 足交
图1. O2Vmapping总体框架
咱们的框架通过将CLIP等文本-图像大型模子的说话镶嵌与基于体素的神经隐式默示相蚁合,收场了在线敞开词汇映射。此外,通过在对象级别重建敞开集语义场景,并愚弄基础模子的分割先验,咱们排斥了语义迁延性,得回了了了的语义界限并处罚了多视角不一致性问题。终末,咱们提议了一种以LLM为中心的代理架构,将咱们的敞开集语义场景才略实例化为交互式缅想,通过查询和渲染机制收场全场景落地树搜索和在线缅想优化。本文的主要孝顺回来如下:
1. 提议O2V-Mapping框架:一种在线构建敞开集语义场景的才略,通过将说话镶嵌与基于体素的神经隐式默示蚁合,收场了高效准确的在线语义映射。
2. 对象级语义相连:通过在对象级别重建语义场景,并愚弄基础模子的分割先验,排斥语义迁延性,得回了了的语义界限(如图2),并处罚多视角不一致性问题。
图2. 在室内场景中在线重建语义场及文本查询收尾
3. LLM智能体架构:提议一种以LLM为中心的智能体架构,将敞开集语义场景实例化为可交互缅想模块,通过查询和渲染机制收场全场景接地树搜索和在线缅想细化,进而收场复杂长程的具身权略(如图3)。
图3. O2V-mapping与LLM交互
4. 排斥语义迁延性和多视角不一致性:通过对象级别的语义相连和基础模子的分割先验,显耀改善了语义迁延性和多视角不一致性问题。(图4)
2018国内自拍在线视观看图4. 自合适分袂体素
延长阅读:
欧洲预计机视觉会议(ECCV)是由欧洲预计机视觉协会(ECVA)料理的预计机视觉和机器学习规模的两年一度的顶级有计划会议。ECCV在偶数年举行,网罗了这些规模的科学和工业界东说念主士。第一次ECCV会议于1990年在法国昂蒂布举办,而后在欧洲各地轮替举办。
MAGIC Lab,是复旦大学工研院智能机器东说念主有计划院和智能机器东说念主教学部工程有计划中心的主要有计划团队之一,复旦大学工研院副院长、智能机器东说念主有计划院院长甘中学西宾为施行室首席PI。MAGIC Lab主要依托上海市东说念主工智能市级紧要专项,面向国度《新一代东说念主工智能发展权略》中的群体智能表面、自主协同戒指与优化决议表面、群体智能要害技能等伏击科学标的,交融非线性能源学、格局识别、预计神经科学、强化学习、集群智能等多规模的表面与才略,要点探究东说念主机物协同与智能交融的科学旨趣,碎裂异构群体行径合作与动态演变的要害技能,构建机灵交通与智能制造等场景下的异构集群交互系统。