CLIP相关 | lc's space

在使用CLIP进行文本和图像的特征提取时，通常指的是每一段文本/一张图片提取一个768维的特征，其文本的特征为TextTransformer的eos对应的特征，图像的特征为VisionTransformer的第0个token的特征。而在文生图的模型中，如SD，其用CLIP提取的是文本的last_hidden_state，即与文本序列长度一致。在CLIP相关分数计算时（CLIP-T，CLIP-I）都是用那一个768维的特征。