多模态 1

语言模型

MiniGPT-4|图像对话模型

MiniGPT-4使用一个投影层将冻结视觉编码器与冻结的LLM对齐,通过传统预训练和自我生成方式构建高质量图像文本对,再在小型数据集上进行微调训练,该模型在视觉 ...