
发布日期:2025-07-06 00:45 点击次数:107
只好极极少的标注样本天天影院网,就能让模子精确分割 3D 场景?
来自哥本哈根大学、苏黎世联邦理工学院等机构的链接东说念主员,提议了一个全新的多模态 Few-shot 3D 分割设定和篡改顺序。
无需稀奇标注资本,该顺序就不错领会文本、2D 和 3D 信息,让模子速即掌捏新类别。
△3D Few-shot 分割规矩示例
东说念主形机器东说念主、VR/AR,以及自动驾驶汽车,都依赖于对 3D 场景的精确相识。
但是,这种精确的 3D 相识频频需要大批能干标注的 3D 数据,极大推高了时辰资本和资源破钞。
Few-shot 学习是一种灵验的处分念念路,但现时链接都局限于单模态点云数据,忽略了多模态信息的潜在价值。
对此,这项新链接填补了这一空缺,著作已被 ICLR 2025 收受为 Spotlight 论文。
整合多模态信息,相识 3D 场景
3D 场景相识在具身智能、VR/AR 等鸿沟至关紧迫,匡助修复准确感知息争读三维宇宙。
但是,传统全监督模子虽在特定类别上说明出色,但其智商局限于预界说类别。
每当需要识别新类别时,必须再行网罗并标注大批 3D 数据以及再行历练模子,这一进程既耗时又不菲,极地面制约了模子的应用广度。
3D Few-shot 学习旨在诓骗极极少的示例样本以相宜模子来灵验的识别轻易的全新类别,大大缩短了新类相宜的支出,使得传统的 3D 场景相识模子不再局限于历练集合有限的类别标签,对鄙俗的应用场景有紧迫的价值。
具体而言,对于 Few-shot 3D 点云语义分割(FS-PCS)任务,模子的输入包括极少救助样本(包含点云及对应新类标签)和查询点云。
模子需要通过诓骗救助样本获取对于新类别的学问并应用于分割查询点云,瞻望出查询点云中对于新类别的标签。
在模子历练和测试时使用的宗旨类别无重合,以保证测试时使用的类均为新类,未被模子在历练时见过。
当今,该鸿沟涌现出的使命都只诓骗点云单模态的输入,忽略了诓骗多模态信息的潜在的益处。
对此,这篇著作提议一个全新的多模态 Few-shot 3D 分割设定,诓骗了文本和 2D 模态且莫得引入稀奇的标注支出。
在这一设定下,他们推出了篡改模子——MultiModal Few-Shot SegNet ( MM-FSS ) 。
该模子通过充分整合多模态信息,灵验擢升小样本上新类别的学习与泛化智商,评释注解了诓骗宽广被忽略的多模态信息对于罢了更好的小样本新类泛化的紧迫性。
多模态 FS-PCS vs 传统设定
△传统和多模态 FS-PCS 设定对比
(为便于链接,以下都将 Few-shot 3D 点云语义分割简称为 FS-PCS。)
传统的 FS-PCS 任务中,模子的输入包含极少的救助点云以及对应的新类别的标注(support point cloud & support mask)。
此外,输入还包括查询点云(query point cloud)。模子需借助 support 样本中对于新类别的学问,在 query 点云中完成新类别分割。
而作家引入的多模态 FS-PCS 包括了除 3D 点云除外的两个稀奇模态——文本和 2D。
文本模态相应于救助样本中的宗旨类别 / 新类的称号。2D 模态相应于 2D 图片,频频陪同 3D 场景相聚同步获取。
值得提防的是,2D 模态仅用于模子预历练,不条款在 meta-learning 和测试时动作输入,保证了其 Few-shot 输入形貌与传统 FS-PCS 对王人,仅需要调换的数据且无需稀奇标注。
引入特征分支和灵验的跨模态领会
MM-FSS 在 Backbone 后引入了两个特征提真金不怕火分支:
Intermodal Feature ( IF ) Head(跨模态特征头),学习与 2D 视觉特征对王人的 3D 点云特征。
Unimodal Feature ( UF ) Head(单模态特征头),提真金不怕火 3D 点云自己的特征。
△MM-FSS 模子架构
在预历练阶段,MM-FSS 先进行跨模态对王人预历练,通过诓骗 3D 点云和 2D 图片数据对,使用 2D 视觉 - 言语模子(VLM)输出的 2D 特征监督 IF head 输出的 3D 特征,使得 IF Head 学习到与 2D 视觉 - 言语模子对王人的 3D 特征。
这一阶段完成后,Backbone 和 IF Head 保持冻结,确保模子在 Few-shot 学习时能诓骗其预历练学到的 Intermodal 特征。这么,在 Few-shot 任务中无需稀奇的 2D 输入,仅依赖 Intermodal 特征即可获益于多模态信息。
此外,该特征也隐式对王人了 VLM 的文本特征,为后续阶段诓骗紧迫的文本开导奠定基础。
而在 Few-shot 历练(称为 meta-learning)时,给定输入的 support 和 query 点云,MM-FSS 永别将 IF Head 和 UF Head 输出的两套特征运筹帷幄出对应的两套 correlations(correlations 暗意每个 query 点和宗旨类别 prototypes 之间的特征雷同度)。
两套 correlations 领会过 Multimodal Correlation Fusion ( MCF ) 进行领会,生成启动多模态 correlations,包含了 2D 和 3D 的视觉信息。
这个进程不错暗意为:
其中 Ci 和 Cu 永别暗意用 IF Head 和 UF Head 特征算得的 correlations。C0 为 MCF 输出的启动多模态 correlations。
现时获取的多模态 correlations 领会了不同的视觉信息源,但文本模态中的语义信息尚未被诓骗,因此策画了 Multimodal Semantic Fusion ( MSF ) 模块,进一步诓骗文本模态特征动作语义开导,擢升多模态 correlations:
其中 Gq 为文本模态的语义开导,Wq 为文本和视觉模态间的权重(会动态变化以筹商不同模态间变化的相对紧迫性),Ck 为多模态 correlations。
到测试阶段,为缓解 Few-shot 模子对于历练类别的 training bias(易被测试场景中存在的历练类别干涉,影响新类分割),MM-FSS 在测试时引入 Test-time Adaptive Cross-modal Calibration ( TACC ) 。
TAAC 诓骗跨模态的语义开导(由 IF Head 生成)相宜性地修正瞻望规矩,罢了更好的泛化。
跨模态的语义开导未经 meta-learning 历练,有更少的 training bias。
为了灵验的现实测试时修正,作家提议基于救助样本过甚标签估算可靠性宗旨,用于自动退换修正进度(当该语义开导可靠性更高时,分派更大的修正权重,不然分派更小的权重):
其中 Pq 为模子的瞻望,Gq 为跨模态语义开导,γ 为相宜性宗旨。
通过借助救助点云以及可用的救助点云标签不错如下运筹帷幄 γ 动作修正可靠成都的揣测:
罢了 few-shot 任务最好性能
实验在两个圭臬的 FS-PCS 数据集上进行,评释注解了 MM-FSS 在各类 few-shot 任务中都罢了了最好性能。
可视化也泄露标明了模子省略罢了更优的新类分割,展示了更强的新类泛化智商。更多能干实验和分析本色请参见论文。
总之,这项使命初次提议了全新的多模态 FS-PCS 设定,无稀奇支出地领会文本和 2D 模态。在该设定下,作家提议首个多模态 FS-PCS 模子 MM-FSS。
MM-FSS 包含了 MCF 和 MSF 来灵验的从视觉印迹和语义信息双重角度高效团聚多模态学问,增强对新类宗旨的全面相识。
同期,MM-FSS 也揭示了过往被宽广忽略的"免费"多模态信息对于小样本相宜的紧迫性,为未来的链接提供了难得的新视线且怒放了更多意旨的潜在地方。
可参考的地方包括性能的擢升、历练和推理恶果的优化,更长远的模态信息诓骗等。
作家简介
该著作的第一作家安照崇,当今在哥本哈根大学攻读博士学位,导师为 Serge Belongie。
金瓶梅电影他硕士毕业于苏黎世联邦理工学院(ETH Zurich),在硕士技巧奴才导师 Luc Van Gool 进行了多个链接技俩。
他的主要链接地方包括 3D/ 视频相识、小样本学习以及多模态学习。
著作的通信作家是苏黎世联邦理工的孙国磊博士和南开大学的刘云教训。
见原存眷论文和代码,了解更多细节!
论文:
https://arxiv.org/abs/2410.22489
代码:
https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本色
附上论文 / 技俩主页汇聚,以及干系方式哦
咱们会(尽量)实时回应你
一键存眷 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「谨防心」
见原在辩论区留住你的想法!天天影院网