BuboGPT是字节跳动推出的一款多模态大语言模型(LLM),能够处理文本、图像和音频等多种输入模态,并具备对齐和非对齐理解的能力。
BuboGPT 是由字节跳动推出的一款多模态大型语言模型(LLM),旨在整合文本、图像和音频等多种输入形式,实现跨模态的细粒度理解与交互。该模型不仅能够处理对齐或未对齐的任意图像音频数据,还能通过语言描述准确识别声音来源,甚至在图像中定位具体对象的位置。
Δ