Research Focus
长视频理解、多模态智能体与 3D 视觉定位
研究多模态大模型与智能体系统,重点关注长视频理解、视频问答、层次化记忆、MLLM Agent 推理以及 2D-3D 视觉定位等方向。当前成果包括 CVPR 2026、ICME 2026 长视频理解论文和 3D visual grounding 预印本。
长视频理解
围绕长视频问答、事件压缩、时序记忆与多步推理,探索能够处理长时间跨度视频内容的多模态理解方法。
MLLM Agent 系统
构建具备工具调用、记忆管理、规划与环境交互能力的多模态智能体,用于复杂视觉语言任务和科研工作流。
3D 视觉定位
研究 2D-3D 映射、零样本 3D visual grounding 与跨视角一致性,提升开放场景下的空间语义理解能力。
科研成果
- 论文2026
VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding(CVPR 2026)
面向长视频理解的层次化记忆与智能体推理框架,已被 CVPR 2026 接收。论文聚焦长视频问答中的信息压缩、记忆组织与多步推理。
- 论文2026
Progressive Video Condensation with MLLM Agent for Long-form Video Understanding(ICME 2026)
围绕长视频理解中的渐进式视频压缩与 MLLM Agent 协同推理展开研究,已被 ICME 2026 接收。
- 预印本2026
Multiple Consistent 2D-3D Mappings for Robust Zero-Shot 3D Visual Grounding
面向零样本 3D 视觉定位的鲁棒 2D-3D 一致映射方法,乾轲为第三作者。论文已公开于 arXiv。
- 竞赛2025
江南古典园林的美学特征建模(中国研究生数学建模大赛国家一等奖)
基于数学建模方法分析江南古典园林的美学特征与空间布局规律,获中国研究生数学建模竞赛一等奖。
精选项目
VideoARM
长视频理解研究项目,围绕层次化记忆、智能体推理和长视频问答构建可扩展的视频理解框架,对应 CVPR 2026 论文。
LongVideo Exploration
新一轮长视频理解探索线,聚焦粗粒度事件建模、可视化人工评估、视频记忆与多 Agent 实验闭环。
VideoARM-MCP
围绕 VideoARM 能力的 MCP 服务封装探索,用于把长视频理解能力接入更通用的 Agent 工作流。
DingTalk GPU Monitor
无需管理员权限的 NVIDIA GPU 利用率和显存监控工具,支持钉钉告警通知。
经历
联系与合作
欢迎就多模态大模型研究、科研合作或个人项目与我交流。
扫码联系

微信
扫码添加

小红书
扫码添加

