視覚と言語の基盤モデルであるCLIPは,テキストと画像との間の類似度を計算することができる.画像セグメンテーションのためのアノテーションにCLIPが用いられているが,物体の細部を捉えることができない問題がある.本論文では,CLIPを用いたゼロショットアノテーションを提案する.複数の解像度の画像とクラスラベルのそれぞれからCLIP特徴量を抽出し,擬似ラベルを求め,条件付き確率場の最適化を通して擬似ラベルを洗練する.公開データセットを用いた性能評価実験により,提案手法の有効性を示す.