QK

长视频理解 · 多模态智能体

面向长视频理解的多模态智能体研究

你好,我是孟乾轲,杭州电子科技大学硕士研究生。我的工作围绕长视频理解中的记忆组织、视频压缩、多步推理与评测 harness 展开,目标是让多模态智能体更可靠地处理长时间跨度视频内容。

当前重点:VideoARM、渐进式视频压缩与长视频实验闭环

孟乾轲
VideoARM
层次化记忆推理
Video Condensation
渐进式视频压缩
Harness
长视频实验工程

Research Focus

长视频理解、多模态智能体与 3D 视觉定位

研究多模态大模型与智能体系统,重点关注长视频理解、视频问答、层次化记忆、MLLM Agent 推理以及 2D-3D 视觉定位等方向。当前成果包括 CVPR 2026、ICME 2026 长视频理解论文和 3D visual grounding 预印本。

长视频理解

围绕长视频问答、事件压缩、时序记忆与多步推理,探索能够处理长时间跨度视频内容的多模态理解方法。

MLLM Agent 系统

构建具备工具调用、记忆管理、规划与环境交互能力的多模态智能体,用于复杂视觉语言任务和科研工作流。

3D 视觉定位

研究 2D-3D 映射、零样本 3D visual grounding 与跨视角一致性,提升开放场景下的空间语义理解能力。

  • 论文2026

    VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding(CVPR 2026)

    面向长视频理解的层次化记忆与智能体推理框架,已被 CVPR 2026 接收。论文聚焦长视频问答中的信息压缩、记忆组织与多步推理。

    长视频理解智能体推理层次化记忆视频问答
  • 论文2026

    Progressive Video Condensation with MLLM Agent for Long-form Video Understanding(ICME 2026)

    围绕长视频理解中的渐进式视频压缩与 MLLM Agent 协同推理展开研究,已被 ICME 2026 接收。

    长视频理解MLLM Agent视频压缩多模态
  • 预印本2026

    Multiple Consistent 2D-3D Mappings for Robust Zero-Shot 3D Visual Grounding

    面向零样本 3D 视觉定位的鲁棒 2D-3D 一致映射方法,乾轲为第三作者。论文已公开于 arXiv。

    3D视觉定位2D-3D映射零样本多模态
  • 竞赛2025

    江南古典园林的美学特征建模(中国研究生数学建模大赛国家一等奖)

    基于数学建模方法分析江南古典园林的美学特征与空间布局规律,获中国研究生数学建模竞赛一等奖。

    数学建模美学分析空间建模

精选项目

查看全部

经历

  1. 杭州电子科技大学 logo

    硕士研究生 · 杭州电子科技大学

    • 计算机技术专业
    • 媒体智能实验室(MIL)
    • 研究方向:多模态大模型、Agent 系统、长视频理解、视频问答
    2024.09 - 至今
  2. 河南大学 logo

    本科生 · 河南大学

    • 计算机科学与技术专业
    • 获得工学学士学位
    2020.09 - 2024.06

联系与合作

欢迎就多模态大模型研究、科研合作或个人项目与我交流。

扫码联系

微信 QR Code
微信
扫码添加
小红书 QR Code
小红书
扫码添加