Research Focus
多模态理解与生成
研究多模态大模型、智能体与视频问答,聚焦视觉语言融合的生成智能,探索跨模态理解、自主推理与长视频分析的前沿方法。
多模态大模型
研究视觉-语言-语音的鲁棒对齐机制,探索对比学习与指令调优的结合策略,提升模型跨模态的语义理解与生成能力。
智能体系统
开发基于大模型的自主智能体,关注工具调用、推理规划与环境交互能力,实现复杂任务的自动化执行。
视频问答
针对长视频理解设计时序建模与关键帧选择策略,结合参数高效微调与小样本学习,提升问答系统的泛化性与实时性。
科研成果
- 论文2024
VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding(CVPR 在投)
提出基于层次化记忆的智能体推理框架,用于长视频理解任务。在多个长视频问答基准测试上取得显著提升。
视频理解智能体多模态长视频 - 竞赛2024
江南古典园林的美学特征建模(中国研究生数学建模大赛国家一等奖)
基于数学建模方法分析江南古典园林的美学特征与空间布局规律。
数学建模多模态美学分析
精选项目
Food Agent
面向食品饮料研发的 AI Agent,辅助从创意探索到配方设计、实验记录、合规校验的端到端工作流。
PythonAI Agent食品科技DingTalk GPU 监控
无需管理员权限的 NVIDIA GPU 利用率和内存监控工具,支持钉钉告警通知。
ShellDevOps监控
经历
联系与合作
欢迎就多模态大模型研究、科研合作或个人项目与我交流。
扫码联系

微信
扫码添加

小红书
扫码添加

X
扫码添加

