多模态大模型研究

你好，我是孟乾轲

主要从事多模态大模型、智能体、视频问答相关的科研工作，聚焦视觉与语言融合的生成智能。

Research Focus

多模态理解与生成

研究多模态大模型、智能体与视频问答，聚焦视觉语言融合的生成智能，探索跨模态理解、自主推理与长视频分析的前沿方法。

研究视觉-语言-语音的鲁棒对齐机制，探索对比学习与指令调优的结合策略，提升模型跨模态的语义理解与生成能力。

开发基于大模型的自主智能体，关注工具调用、推理规划与环境交互能力，实现复杂任务的自动化执行。

针对长视频理解设计时序建模与关键帧选择策略，结合参数高效微调与小样本学习，提升问答系统的泛化性与实时性。

论文2024
VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding（CVPR 在投）
提出基于层次化记忆的智能体推理框架，用于长视频理解任务。在多个长视频问答基准测试上取得显著提升。
视频理解智能体多模态长视频
下载 PDF GitHub 查看详情
竞赛2024
江南古典园林的美学特征建模（中国研究生数学建模大赛国家一等奖）
基于数学建模方法分析江南古典园林的美学特征与空间布局规律。
数学建模多模态美学分析
下载 PDF GitHub 查看详情

Food Agent
GitHub
面向食品饮料研发的 AI Agent，辅助从创意探索到配方设计、实验记录、合规校验的端到端工作流。
PythonAI Agent食品科技
DingTalk GPU 监控
GitHub
无需管理员权限的 NVIDIA GPU 利用率和内存监控工具，支持钉钉告警通知。
ShellDevOps监控