# Google、Meta、OpenAIに挑む:Allen Institute for AIがオープンソース動画分析モデル「Molmo 2」を発表
Allen Institute for AI (Ai2)は、動画の追跡、分析、質問応答を可能にするオープンソースのAIビジョンモデル「Molmo 2」を発表しました。このモデルは、GoogleのGemini 3などのクローズドな商用システムに匹敵、あるいは動画追跡の分野では上回る性能を示しており、AI研究におけるオープンソースの重要性を改めて浮き彫りにしています。
## オープンソースの力:Molmo 2の革新性
Molmo 2の最大の特長は、その**完全なオープンソース**である点です。モデルの重み、トレーニングコード、トレーニングデータがすべて公開されており、これはOpenAIやGoogleといった大手企業のクローズドなアプローチとは一線を画します。非営利団体であるAi2は、技術の進歩を特定の企業に囲い込むのではなく、世界中の開発者が自由に利用し、カスタマイズできるようにすることを目指しています。
### 驚異的な動画分析能力
Molmo 2は、単に動画を認識するだけでなく、その内容を深く理解し、質問に答えることができます。
* **スポーツ分析**: サッカーの試合で「どの守備ミスがゴールにつながったか」という質問に対し、ボールをクリアできなかったシーケンスを特定。
* **複雑な追跡**: 複数のペンギンがフレーム内を動き回る動画で、重なり合っても個体IDを維持しながら追跡。
* **行動の特定**: ダンサーが何回宙返りしたかを数えるだけでなく、それぞれの宙返りのタイムスタンプとピクセル座標を返す。
これらのデモンストレーションは、Molmo 2が単なる物体認識を超え、**時間軸に沿った複雑な因果関係や行動を理解**していることを示しています。
## 効率性と将来への課題
Molmo 2は、MetaのPerception LMが7250万本の動画で訓練されたのに対し、約900万本の高品質な人間による注釈付きデータを使用することで、より小さく効率的なモデルを実現しました。これは、データ量の多さだけでなく、**データの質**がAIモデルの性能を左右するという重要な教訓を提供しています。
一方で、Molmo 2にはまだ課題も残されています。現在の追跡能力は最大約10アイテムに限定されており、群衆や交通量の多いシーンでの追跡は困難です。また、長編動画の分析やライブ動画ストリームの処理も今後の研究課題とされています。しかし、Ai2のCEOであるアリ・ファルハディ氏は、「真のオープンソースを行えば、**競争**という言葉は**コラボレーション**に変わる」と述べ、コミュニティ全体での技術発展に期待を寄せています。
[元記事へ](https://www.geekwire.com/2025/allen-institute-for-ai-rivals-google-meta-and-openai-with-open-source-video-analysis-model/)






