
VITA是一个能够同时处理和分析视频、图像、文本和音频模态的语言模型,具备先进的多模态交互体验。研究者以Mixtral 87B为语言基础,扩大了其汉语词汇量,并通过双语指令微调赋予语言模型更强的中文理解能力。
除此之外,研究者还通过多模态对齐和指令微调的两阶段多任务学习,赋予语言模型视觉和音频能力。VITA展示了强大的多语言、视觉和音频理解能力,在单模态和多模态基准测试中的出色表现证明了这一点。
VITA的部署采用复式方案,其中一个模型负责生成对用户查询的响应,另一个模型则持续环境输入。这使得VITA具备令人印象深刻的人机交互功能,如非唤醒交互和音频中断等。
在视频中,用户可以与VITA进行无障碍的沟通。当被问及数学题时,VITA能够实时查看题目类型,进行推理,然后给出准确答案。它还能够根据用户的穿着推荐搭配什么颜色的裤子,或者给出旅游建议等。值得一提的是,用户在与他人讲话时,VITA不会插嘴,因为它知道用户不是在和它交流。
论文地址、论文主页和论文标题等信息详见文中所述。研究者在文章中详细介绍了VITA的整体训练流程,包括LLM指令微调、多模态对齐和多模态指令微调等阶段。文章还介绍了VITA在音频模态和视觉模态方面的技术细节。
实验评估部分详细展示了VITA在语言性能、音频性能和多模态性能方面的表现。通过对比其他数据集和模型的表现,凸显了VITA的优势和潜力。文章也指出了目前开源模型与专有模型在视频理解能力方面仍存在较大差距。
VITA作为开源社区探索多模态理解和交互无缝集成的第一步,虽然还有很多工作要做才能接近闭源同行,但研究者希望它能成为后续研究的基石。更多关于VITA的信息和细节,请参见其论文和相关视频链接。
