孟乾轲

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding

1 分钟阅读
视频理解智能体多模态长视频

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding

状态: CVPR 在投

研究背景

长视频理解是多模态大模型领域的重要挑战。传统方法在处理长视频时面临计算复杂度高、关键信息提取困难等问题。本文提出 VideoARM 框架,通过智能体推理和层次化记忆机制,实现高效的长视频理解。

核心创新

1. 层次化记忆架构

我们设计了多层次的记忆结构:

  • 短期记忆:存储当前帧的视觉特征
  • 中期记忆:保存关键帧和事件摘要
  • 长期记忆:维护全局语义表示

2. 智能体推理机制

基于大模型的智能体能够:

  • 自主决定何时访问不同层次的记忆
  • 动态调整关键帧选择策略
  • 进行多步推理以回答复杂问题

3. 时序建模策略

针对长视频的时序关系,我们提出:

  • 自适应时间采样算法
  • 事件边界检测模块
  • 跨帧关系建模网络

实验结果

在多个长视频问答基准测试上取得了显著提升:

  • ActivityNet-QA: 提升 8.3%
  • EgoSchema: 提升 12.1%
  • NExT-QA: 提升 6.7%

方法优势

  1. 高效性:相比完整帧处理,计算量降低 70%
  2. 准确性:在长视频理解任务上超越现有方法
  3. 可解释性:智能体推理过程可视化

未来工作

  • 探索更大规模的视频数据集
  • 研究实时推理优化策略
  • 扩展到多模态视频理解任务

关键词: 长视频理解 | 智能体推理 | 层次化记忆 | 视频问答

💬 评论