孟乾轲

多模态大模型研究

你好,我是孟乾轲

主要从事多模态大模型、智能体、视频问答相关的科研工作,聚焦视觉与语言融合的生成智能。

孟乾轲

Research Focus

多模态理解与生成

研究多模态大模型、智能体与视频问答,聚焦视觉语言融合的生成智能,探索跨模态理解、自主推理与长视频分析的前沿方法。

多模态大模型

研究视觉-语言-语音的鲁棒对齐机制,探索对比学习与指令调优的结合策略,提升模型跨模态的语义理解与生成能力。

智能体系统

开发基于大模型的自主智能体,关注工具调用、推理规划与环境交互能力,实现复杂任务的自动化执行。

视频问答

针对长视频理解设计时序建模与关键帧选择策略,结合参数高效微调与小样本学习,提升问答系统的泛化性与实时性。

  • 论文2024

    VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding(CVPR 在投)

    提出基于层次化记忆的智能体推理框架,用于长视频理解任务。在多个长视频问答基准测试上取得显著提升。

    视频理解智能体多模态长视频
  • 竞赛2024

    江南古典园林的美学特征建模(中国研究生数学建模大赛国家一等奖)

    基于数学建模方法分析江南古典园林的美学特征与空间布局规律。

    数学建模多模态美学分析

精选项目

查看全部

经历

  1. 杭州电子科技大学 logo

    研究生(硕士) · 杭州电子科技大学

    • 计算机技术专业
    • 从事多模态大模型相关研究
    2024 - 至今
  2. 河南大学 logo

    本科(学士) · 河南大学

    • 计算机科学与技术专业
    • 获得工学学士学位
    2020 - 2024

联系与合作

欢迎就多模态大模型研究、科研合作或个人项目与我交流。

扫码联系

微信 QR Code
微信
扫码添加
小红书 QR Code
小红书
扫码添加
X QR Code
X
扫码添加