視覚障害者に画像の代替テキストを提供したり,テキストで画像検索をしたりするためには,自動で画像にキャプションを付与する必要がある.現在までに提案されている手法で付与されたキャプションは,人手で付与されたキャプションと比べると単語の正確性と文章の自然さに問題がある.これに対して,シーングラフと呼ばれる画像中のシーンの内容を表現したグラフを用いることで,正確性を改善することができる.また,大量のテキストデータで学習された大規模言語モデル(LLM)を用いることで,自然さを改善することができる.本稿では,画像からシーングラフを生成し,複数の短文でシーングラフの内容を表現し,LLM を用いてそれらの短文からキャプションを生成する手法を提案する.公開データセットを用いた性能評価実験により提案手法の有効性を示す.