MiniGPT-4

https://github.com/Vision-CAIR/MiniGPT-4
该仓库是一个名为 MiniGPT-4 的大型语言模型，用于增强视觉语言理解能力。MiniGPT-4使用一个冻结的视觉编码器和一个冻结的语言模型进行对齐，通过两个阶段的训练，可以生成高质量的图像文本对话。该仓库提供了在线演示和预训练模型，可以用于图像文本生成任务。
该仓库的训练和预测代码基于 PyTorch，使用了 BLIP-2 和 Vicuna 等先进的语言模型。该仓库的训练数据集包括来自 Laion 和 CC 数据集的图像文本对，以及自己创建的高质量图像文本对话数据集。该仓库的训练和预测代码可以在本地或 Colab 上运行。

Leave a Reply