LLaMA-VID对视频的准确解读正是建立在这样的图片水准之上的,但最关键的点还是它如何完成如此长时间的视频处理。

几行代码实现单帧2token表示

LLaMA-VID的关键创新是将每帧画面的token数量压缩到很低,从而实现可处理超长视频。

很多传统多模态大模型对于单张图片编码的token数量过多,导致了视频时间加长后,所需token数量暴增,模型难以承受。

为此研究团队重新设计了图像的编码方式,采用上下文编码(Context Token)和图像内容编码(Content Token)来对视频中的单帧进行编码。

从而实现了将每一帧用2个token表示

具体来看LLaMA-VID的框架。

只包含3个部分:

  • 采用编解码器产生视觉嵌入和文本引导特征。

  • 根据特定token生成策略转换上下文token和图像内容token。

  • 指令调优进一步优化。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。

扫描二维码,在手机上阅读
相关推荐
发表评论