多模态大模型 | 大模型与机器学习博客

多模态大模型的兴起

多模态大模型将视觉理解与语言生成结合，让AI能够同时"看"和"说"。GPT-4V、LLaVA等模型展示了这一方向的重要性。

使用预训练的视觉模型(如CLIP ViT)提取图像特征，将视觉信息转换为与语言模型兼容的表示。

通过线性层或MLP将视觉特征映射到语言模型的嵌入空间，实现模态间的对接。

接收视觉特征和文本输入，生成多模态理解后的回复。

多模态的关键是将不同模态映射到统一的表示空间。

多模态是通向AGI的重要一步。未来将整合更多模态：音频、视频、触觉等。