<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>FREE VIDEO-LLM: PROMPT-GUIDED VISUAL PERCEPTION FOR EFFICIENT TRAINING-FREE VIDEO LLMS</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2410.10441">https://arxiv.org/abs/2410.10441</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1736422661/60BB736D-2820-45C9-9331-DB55A052B233.png" style="background-color:initial;max-width:min(100%,2502px);max-height:min(1148px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1736422661/60BB736D-2820-45C9-9331-DB55A052B233.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2502" height="1148"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul> 文章主要是为了解决training-free VideoLLM的视频token数太多的问题,文章提出利用prompt对视频进行1)时域采样2)空间裁剪。 具体来说,1)将问题经过clip文本编码器进行特征提取,随后对视频每一帧进行特征提取,进行相似度计算,保留相似度高的帧。2)将一帧内的所有token特征与问题特征进行相似度计算,保留相似度最高的区域。 文章的思路比较简单,主要从减少视频token数量进行优化。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li>指标:open-ended QA</li><li>硬件:未提及</li><li>开源:<a href="https://github.com/contrastive/FreeVideoLLM">https://github.com/contrastive/FreeVideoLLM</a> </li></ul>