【中国の動画生成AI】Animate Anyone 2

概要

2025年2月16日発表『Animate Anyone2』— Alibabaの最新動画生成AIモデル

中国 AlibabaのTongyi Labが開発した最新の動画生成AIモデル『Animate Anyone2』が、2025年2月16日に発表されました。

このモデルは、キャラクターの静止画像と動画から高品質なキャラクターアニメーションを生成する能力を備えています。

特に注目すべき特徴は、キャラクターと環境の相互作用をリアルに再現する技術を採用している点です。

これにより、アニメーションがより自然でダイナミックなものになり、リアルな動きを再現することが可能になっています。

現時点で判明している『Animate Anyone2』についての詳細をお届けします。



1.Animate Anyone 2とは

Animate Anyone 2』は、Alibabaが開発した最新の動画生成AIモデルで、既存のキャラクター画像などの”静止画像”と”動画”をもとに、リアルで滑らかなキャラクターアニメーション(キャラクターに動きをつけた動画)を作成できる技術です。

具体的には、アップロードした静止画像と動画から、キャラクターが存在しない部分を「環境」として認識し、その情報をもとにキャラクターの動きを調整します。

この仕組みにより、キャラクターと背景の相互作用がよりリアルに表現され、視覚的な一体感が生まれます。

例えば、”キャラクターAの静止画像”と”人物が地面を歩く動画”から、キャラクターAの足の動きが地面の傾きや障害物に応じて自然に変化するようにアニメーションが生成され、”キャラクターAが地面を歩く動画”が生成されます。

以下のようなプロセスで進行します。

①環境の定義
キャラクターがいない領域を環境と定義します。

キャラクターがどのようにその環境に適応するかを学習するための基盤が形成されます。

この環境の情報を利用することによって、キャラクターがその環境において自然に振る舞うように設計されています。


情報の抽出
ソース動画から、キャラクターがいない部分の情報を抽出します。

この情報には、背景の動きや物体の位置、照明条件等が含まれます。

これにより、キャラクターがどのようにその環境に溶け込むかを理解するためのデータが得られ、キャラクターのアニメーションが環境に対して一貫性を持つようになります。

また、拡散モデル*¹を基盤とした生成技術により、チラつきの低減や服の柄などの細部を維持しながら、複雑な動作も一貫性を保ちながら滑らかに表現します。

さらに、ポーズモジュレーション*²やオブジェクトガイダー*³といった技術によって、キャラクターと物体の相互作用を強化し、多様な動作を自然に表現することが可能です。

これにより、映画、ゲーム、VRなど多様な分野での応用が期待されています。


*1 拡散モデル

画像や動画を生成するための生成AIの一種で、特にノイズを加えて徐々に取り除くことでデータを生成する手法


*2  ポーズモジュレーション

キャラクターの体の各部位(手足や胴体など)の空間的な関係や動きを調整する技術


*3  オブジェクトガイダー

キャラクターと周囲のオブジェクトとの相互作用を強化するための技術


2.Animate Anyone 2の利用手順

①公式サイト・GitHubの確認:最新情報やコードは、公式サイトやGitHubリポジトリから入手できます。

②環境構築:必要なライブラリや事前学習済みモデルをインストールします。アニメーションの生成:キャラクターの静止画像と動作ビデオを用意し、指定のコマンドを実行してアニメーションを生成します。

③結果の確認:生成されたアニメーションを確認し、必要に応じて調整を行います。

GitHubリポジトリからセットアップし、コマンドで簡単に実行可能です。

詳細はこちらをご覧ください。▶Animate Anyone 2


3.Animate Anyone2の技術的特徴

環境情報の統合:キャラクターと背景の一体感を高めるため、環境情報(背景の形状、地形の傾き、光の影響など)をモデルに取り入れ、動きと環境の整合性を向上。


空間ブレンディングとオブジェクトガイダー:キャラクターとオブジェクトの相互作用を強化するため、オブジェクトガイダーが物体との接触や影の影響を解析し、空間ブレンディングによりキャラクターの動きを環境と自然に融合。


ポーズモジュレーション:多様な動作パターンに適応するため、キャラクターの骨格情報やポーズの変化を分析し、関節や姿勢の整合性を維持しながら自然なキャラクターの動きを実現。


時間的一貫性(テンポラルレイヤー):拡散モデルの時間軸処理を最適化し、フレーム間のスムーズな遷移を保証することで、動きのブレや不自然な変化を抑え、アニメーションの一貫性を向上。


形状非依存マスク戦略:キャラクターの形状に依存せず、環境全体の情報を考慮しながらキャラクターを背景に自然に適応させる技術。これにより、キャラクターが環境内を移動する際の違和感を軽減し、動作のリアリティ向上。


4.Animate Anyone2に期待される応用分野

  • 映画制作:キャラクターと背景のリアルな統合により、映像制作の効率化。

  • ゲーム開発:多様なキャラクターアニメーションを簡単に生成し、ゲーム内でのリアルな動きを実現。

  • バーチャルリアリティ(VR):環境との自然な相互作用を持つキャラクターを生成し、没入感のある体験を提供。


5.まとめ

「Animate Anyone 2」は、既存のキャラクター画像などの静止画像や動画をもとに、高品質なキャラクターアニメーション(キャラクターに動きをつけた動画)を生成する革新的なAI技術です。

このモデルは、参照動画から抽出した動きを活用し、ユーザーが指定したキャラクターを自然かつリアルにアニメーション化することが可能です。

特に、キャラクターの動きと背景環境との相互作用を考慮した設計により、複雑な動きや細かなディテールを滑らかに再現できる点が特徴です。

複雑な動きを自然に再現する能力は他の動画生成AIと比較しても目を見張るもので、その高い一貫性と詳細な再現性、多様な応用の可能性から、映画やゲームはもちろん、VFX、広告、SNSコンテンツなど幅広い分野での活用が期待されています。

一方で、このような高度な技術は悪用のリスクが高まるということも事実です。

例えば、ディープフェイクのように、実在の人物の映像を無断で改変し、偽の動画を作成することが可能となります。

これにより、フェイクニュースの拡散や個人の名誉毀損、詐欺行為などの悪用が懸念されます。

また、著作権を無視したコンテンツの作成にも悪用される可能性があるでしょう。

そのため、この技術を適切に利用するためには、倫理的なガイドラインの整備や識別技術の開発が不可欠だと思われます。

今後も『AIとハタラクラボ』では、中国の動画生成AI『Animate Anyone2』の最新情報をお届けしていきます!


執筆、編集作業の所要時間

  • 所要時間: 60分

    • 人間: 40分

    • AI: 20分

内訳

  • 記事執筆(by 人間): 40分

  • 誤字脱字の確認(by AI): 5分

  • 編集(by AI): 10分

  • 添削(by AI): 5分

人間のみで記事作成した場合に想定される所要時間: 80分

AIによる所要時間削減率: 25%

佐藤 幹太 (編集長)

AIとハタラクラボ by USEN WORK WELLの副編集長、幹太(人間)です。
JDLA Generative AI TEST 2024 #2
生成AIパスポート

AIとハタラクラボ by USEN WORK WELLは、株式会社USEN WORK WELLのAI Labが運営するオウンドメディアです。
Xを運営しています。フォローよろしくお願いします!☞https://x.com/aiworklab

前へ
前へ

【TikTok×動画生成AI】OmniHuman-1

次へ
次へ

世界最高水準の動画生成AI『Veo2』