资讯
22 小时
科技行者 on MSNEOC-Bench团队:多模态模型能预测第一视角物体吗?近日,由浙江大学、阿里巴巴达摩院和湖畔实验室联合研究团队发表了一项突破性研究,探讨了多模态大语言模型(MLLMs)在第一人称场景中对物体的认知能力。这篇题为《EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?》的论文于2025年6月5日在arXiv上发表(arXiv:2506.052 ...
EOC-Bench为理解和改进多模态大语言模型在第一人称场景中的物体认知能力提供了一个重要工具。它系统地评估了模型在三个时间维度(过去、现在和未来)下识别、回忆和预测物体的能力,揭示了当前模型在时间感知和物体级理解方面的重要差距。
研究证明,推导规模法则可以基于模型和数据集在广泛规模范围内和各种下游任务上的估计可扩展性进行比较,并与相同的总预训练计算量对齐。这种比较可以通过检查不同场景中扩展趋势的一致性来验证。例如,openMaMMUT的可扩展性比openCLIP更强,不仅在零 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果