東北大学 大学院情報科学研究科 情報基礎科学専攻 計算機構論分野
(東北大学 工学部 電気情報物理工学科 情報工学コース)
青木・伊藤(康)研究室

情報処理学会東北支部奨励賞

シーングラフと LLM を用いた画像キャプション生成に関する検討

池田 誠也 (東北大学) , 伊藤 康一 (東北大学) , 青木 孝文 (東北大学)
電気関係学会東北支部連合大会, August 2024.
Graphical Abstract
Abstract

視覚障害者に画像の代替テキストを提供したり,テキストで画像検索をしたりするためには,自動で画像にキャプションを付与する必要がある.現在までに提案されている手法で付与されたキャプションは,人手で付与されたキャプションと比べると単語の正確性と文章の自然さに問題がある.これに対して,シーングラフと呼ばれる画像中のシーンの内容を表現したグラフを用いることで,正確性を改善することができる.また,大量のテキストデータで学習された大規模言語モデル(LLM)を用いることで,自然さを改善することができる.本稿では,画像からシーングラフを生成し,複数の短文でシーングラフの内容を表現し,LLM を用いてそれらの短文からキャプションを生成する手法を提案する.公開データセットを用いた性能評価実験により提案手法の有効性を示す.

戻る