多模态的综述论文

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
深入探讨了MLLM的研究进展并发表了多模态大语言模型领域的首篇综述。 高屋建瓴讨论了MLLM的技术方向和挑战。

多模态指令微调(Multimodal Instruction Tuning,M-IT)
多模态上下文学习(Multimodal In-Context Learning,M-ICL)
多模态思维链(Multimodal Chain of Thought,M-CoT)
LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)

前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。

Previous:

Next:

Leave a Reply

Please Login to Comment