Video-LLaMA:视频理解

https://github.com/DAMO-NLP-SG/Video-LLaMA
基于 MiniGPT-4 的大型语言模型,该模型包括两层视频 Q-Former 和一层帧嵌入层,以使 MiniGPT-4 的图像编码器能够处理视频输入。为了使 Vicuna-13B 能够理解视频表示,Video-LLaMA 在 Webvid-2M 视频字幕数据集上进行了预训练,并添加了来自 LLaVA 的图像-文本对以增强对静态视觉概念的理解。在预训练后,使用 MiniGPT-4 的基于图像的指令调整数据对 Video-LLaMA 进行了微调。需要注意的是,只有新增的层和线性投影层在预训练和指令调整阶段中是可训练的,这些组件充当视频表示和文本表示之间的“适配器”。该仓库提供了预训练和指令调整的检查点,以及使用说明和示例。

Previous:

Next:

Leave a Reply

Please Login to Comment