パナソニックホールディングス(HD)とパナソニックR&Dカンパニーオブアメリカは、画像生成AIで広く用いられる拡散モデルを応用したマルチモーダルAI「LaViDa」を開発しました。この技術は、図やグラフを含む複雑な文書の説明文を、従来のモデルよりも約2倍の速度で、かつ特定のフォーマットで正確に生成することを可能にします。
従来のマルチモーダルAIが抱えていた課題
これまでマルチモーダルAIの主流であった自己回帰モデルは、文頭から1トークンずつ順番に生成していくため、文章量が増えるにつれて生成時間が長くなるという課題がありました。また、特定のフォーマットで文章を生成するタスクも苦手としていました。これは、特に企業内で蓄積された図入りの技術資料やマニュアルをAIで活用しようとする際に、大きな障壁となっていました。
LaViDaの技術的特徴:拡散モデルによる並列生成
LaViDaは、この課題を解決するために、画像生成AIで成功を収めている拡散モデルを、マルチモーダルAIの文章生成に応用しました。
アテンション計算の効率化による高速化
拡散モデルで文章生成を行う場合、通常は文章全体のトークンを参照してアテンション計算を行うため、計算が重くなるという問題がありました。LaViDaでは、このアテンション計算から入力画像と質問文に関するトークンを省くことで、推論を高速化する技術を開発しました。これにより、複数のトークンをまとめて並列的に生成することが可能となり、自己回帰型モデルに比べ、生成速度を大幅に向上させることができました。
検証結果と広がる活用用途
自然画像のQ&Aタスクや、数学・科学の証明問題、チャートやグラフが多数含まれるドキュメントの内容理解といったデータセットを用いた検証の結果、LaViDaは既存の自己回帰型を上回る性能と、生成時間の高速化を達成しました。
パナソニックHDは、このLaViDaを今後、社内に蓄積した図入りの資料をRAG(検索拡張生成)で参照しやすい形に変換するといった用途で活用していく方針です。これにより、企業のナレッジ活用と業務効率化が大きく進むことが期待されます。






