VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
• 1 分钟阅读
视频理解智能体多模态长视频
VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
状态: CVPR 在投
研究背景
长视频理解是多模态大模型领域的重要挑战。传统方法在处理长视频时面临计算复杂度高、关键信息提取困难等问题。本文提出 VideoARM 框架,通过智能体推理和层次化记忆机制,实现高效的长视频理解。
核心创新
1. 层次化记忆架构
我们设计了多层次的记忆结构:
- 短期记忆:存储当前帧的视觉特征
- 中期记忆:保存关键帧和事件摘要
- 长期记忆:维护全局语义表示
2. 智能体推理机制
基于大模型的智能体能够:
- 自主决定何时访问不同层次的记忆
- 动态调整关键帧选择策略
- 进行多步推理以回答复杂问题
3. 时序建模策略
针对长视频的时序关系,我们提出:
- 自适应时间采样算法
- 事件边界检测模块
- 跨帧关系建模网络
实验结果
在多个长视频问答基准测试上取得了显著提升:
- ActivityNet-QA: 提升 8.3%
- EgoSchema: 提升 12.1%
- NExT-QA: 提升 6.7%
方法优势
- 高效性:相比完整帧处理,计算量降低 70%
- 准确性:在长视频理解任务上超越现有方法
- 可解释性:智能体推理过程可视化
未来工作
- 探索更大规模的视频数据集
- 研究实时推理优化策略
- 扩展到多模态视频理解任务
关键词: 长视频理解 | 智能体推理 | 层次化记忆 | 视频问答