长视频理解 · 多模态智能体

面向长视频理解的多模态智能体研究

你好，我是孟乾轲，杭州电子科技大学硕士研究生。我的工作围绕长视频理解中的记忆组织、视频压缩、多步推理与评测 harness 展开，目标是让多模态智能体更可靠地处理长时间跨度视频内容。

查看研究与项目下载中文简历

当前重点：VideoARM、渐进式视频压缩与长视频实验闭环

VideoARM

层次化记忆推理

Video Condensation

渐进式视频压缩

Harness

长视频实验工程

Research Focus

长视频理解、多模态智能体与 3D 视觉定位

研究多模态大模型与智能体系统，重点关注长视频理解、视频问答、层次化记忆、MLLM Agent 推理以及 2D-3D 视觉定位等方向。当前成果包括 CVPR 2026、ICME 2026 长视频理解论文和 3D visual grounding 预印本。

长视频理解

围绕长视频问答、事件压缩、时序记忆与多步推理，探索能够处理长时间跨度视频内容的多模态理解方法。

MLLM Agent 系统

构建具备工具调用、记忆管理、规划与环境交互能力的多模态智能体，用于复杂视觉语言任务和科研工作流。

3D 视觉定位

研究 2D-3D 映射、零样本 3D visual grounding 与跨视角一致性，提升开放场景下的空间语义理解能力。

科研成果

进入科研页 →

论文2026
VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding（CVPR 2026）
面向长视频理解的层次化记忆与智能体推理框架，已被 CVPR 2026 接收。论文聚焦长视频问答中的信息压缩、记忆组织与多步推理。
长视频理解智能体推理层次化记忆视频问答
arXiv GitHub 查看详情
论文2026
Progressive Video Condensation with MLLM Agent for Long-form Video Understanding（ICME 2026）
围绕长视频理解中的渐进式视频压缩与 MLLM Agent 协同推理展开研究，已被 ICME 2026 接收。
长视频理解MLLM Agent视频压缩多模态
arXiv
预印本2026
Multiple Consistent 2D-3D Mappings for Robust Zero-Shot 3D Visual Grounding
面向零样本 3D 视觉定位的鲁棒 2D-3D 一致映射方法，乾轲为第三作者。论文已公开于 arXiv。
3D视觉定位2D-3D映射零样本多模态
arXiv
竞赛2025
江南古典园林的美学特征建模（中国研究生数学建模大赛国家一等奖）
基于数学建模方法分析江南古典园林的美学特征与空间布局规律，获中国研究生数学建模竞赛一等奖。
数学建模美学分析空间建模
下载 PDF 查看详情

精选项目

查看全部

VideoARM
GitHub
长视频理解研究项目，围绕层次化记忆、智能体推理和长视频问答构建可扩展的视频理解框架，对应 CVPR 2026 论文。
Long VideoMLLM AgentResearch
LongVideo Exploration
新一轮长视频理解探索线，聚焦粗粒度事件建模、可视化人工评估、视频记忆与多 Agent 实验闭环。
Video UnderstandingEvaluationAgent
VideoARM-MCP
围绕 VideoARM 能力的 MCP 服务封装探索，用于把长视频理解能力接入更通用的 Agent 工作流。
MCPAgent ToolingVideo
DingTalk GPU Monitor
GitHub
无需管理员权限的 NVIDIA GPU 利用率和显存监控工具，支持钉钉告警通知。
ShellDevOpsMonitoring

经历

●
硕士研究生 · 杭州电子科技大学
• 计算机技术专业
• 媒体智能实验室（MIL）
• 研究方向：多模态大模型、Agent 系统、长视频理解、视频问答
2024.09 - 至今
●
本科生 · 河南大学
• 计算机科学与技术专业
• 获得工学学士学位
2020.09 - 2024.06

联系与合作

欢迎就多模态大模型研究、科研合作或个人项目与我交流。

直接联系

mengqianke1@gmail.com

社交媒体

GitHub LinkedIn Twitter

扫码联系

微信

扫码添加

小红书

扫码添加

面向长视频理解的多模态智能体研究

长视频理解、多模态智能体与 3D 视觉定位

长视频理解

MLLM Agent 系统

3D 视觉定位

科研成果

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding（CVPR 2026）

Progressive Video Condensation with MLLM Agent for Long-form Video Understanding（ICME 2026）

Multiple Consistent 2D-3D Mappings for Robust Zero-Shot 3D Visual Grounding

江南古典园林的美学特征建模（中国研究生数学建模大赛国家一等奖）

精选项目

VideoARM

LongVideo Exploration

VideoARM-MCP

DingTalk GPU Monitor

经历

硕士研究生 · 杭州电子科技大学

本科生 · 河南大学

联系与合作

直接联系

社交媒体

扫码联系