LLaMA-VID对视频的准确解读正是建立在这样的图片水准之上的,但最关键的点还是它如何完成如此长时间的视频处理。
LLaMA-VID的关键创新是将每帧画面的token数量压缩到很低,从而实现可处理超长视频。
很多传统多模态大模型对于单张图片编码的token数量过多,导致了视频时间加长后,所需token数量暴增,模型难以承受。
为此研究团队重新设计了图像的编码方式,采用上下文编码(Context Token)和图像内容编码(Content Token)来对视频中的单帧进行编码。
从而实现了将每一帧用2个token表示。
具体来看LLaMA-VID的框架。
只包含3个部分:
采用编解码器产生视觉嵌入和文本引导特征。
根据特定token生成策略转换上下文token和图像内容token。
指令调优进一步优化。