CLIP相关

在使用CLIP进行文本和图像的特征提取时,通常指的是每一段文本/一张图片提取一个768维的特征,其文本的特征为TextTransformer的eos对应的特征,图像的特征为VisionTransformer的第0个token的特征。 而在文生图的模型中,如SD,其用CLIP提取的是文本的last_hidden_state,即与文本序列长度一致。 在CLIP相关分数计算时(CLIP-T,CLIP-I)都是用那一个768维的特征。