【TikTok×動画生成AI】OmniHuman-1
概要
2025年2月3日に研究論文が発表された『OmniHuman-1』
TikTokの親会社ByteDanceによる最先端の動画生成AIです。
特徴的な機能を持っており、1枚の人物画像と音声クリップをインプットすると、
その人物が、その音声で話す動画を生成することができます。
例えば、「ギターを弾く女性」の”画像”と「ギターと歌声」の”音声”から、「ギターを弾きながら歌う女性」の”動画”を生成することができます。
製品としての正式なリリースは現在まだ行われておらず、一般向けにダウンロードやAPIの提供もされていません。しかし、リリースが開始されれば、TikTokクリエイターやVTuber、バーチャルアナウンサーなどのコンテンツ制作の分野で大きな影響を与えると期待されています。
1. OmniHuman-1とは?
OmniHuman-1は、ByteDanceが開発した最新の動画生成AIです。1枚の人物画像と音声クリップを入力するだけで、リアルな人間の動きを持つ動画を生成できます。
「Diffusion Transformer(DiT)」(詳細は後述)アーキテクチャを採用しており、表情や動作を極めて自然に再現できる点が大きな特徴です。
また、ByteDanceのサービスであるTikTokと関連が深いとされており、TikTokへの投稿がトレーニングデータとして利用される可能性があると報じられています。
将来的にはTikTokユーザーがOmniHuman-1によってバーチャルアバターを作成し、コンテンツをより簡単に制作できる可能性が高いのではないでしょうか。
2. 主な特徴と技術
OmniHuman-1の特長は以下の通りです。
①マルチモーダル情報の統合
画像、音声、ポーズ情報を組み合わせて、リアルな動画を生成できます。単なる動画生成AIではなく、異なる情報ソースを統合して自然な動作を実現します。
②高精度な動作予測
音声や動作データに基づき、自然なジェスチャーや表情を生成可能です。特に、人物の目の動きや口の動きがリアルであり、既存の技術を超える精度を誇ります。
③多様なフォーマット対応
ポートレート、半身、全身の動画など、さまざまなアスペクト比やフレーム設定に対応しています。これにより、エンターテインメントや広告、教育などの幅広い分野での活用が期待されています。
※使い方や料金体系についてはまだ公開されていません。
実際にOmniHuman-1で生成された動画はこちらでご覧いただけます。
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
3. 競合AIとの比較
OmniHuman-1は、テキストのみで動画を生成する他の技術と異なり、画像+音声を基にした自然な動きや表情の再現に強みを持っています。
TikTokを運営しているByteDanceだからこその強みではないでしょうか。
4. 期待される活用分野
OmniHuman-1の技術は、以下のような分野で活用が期待されます。
VTuber・バーチャルインフルエンサー
高精度な動作予測とリアルな表情の再現により、VTuberやバーチャルアバターをより簡単に作成。バーチャルアナウンサー・ナレーション
ニュースや解説動画などの自動生成が可能になり、メディア業界で活用。教育・研修コンテンツ
オンライン教育の分野で、リアルなインストラクターの代替として活用。エンターテインメント・映画制作
映画やアニメーション制作において、AIによるキャラクター生成やアニメーションの効率化。
5. 今後の展望
商業利用の拡大
OmniHuman-1は現在研究段階にあり、正式リリースが待たれますが、将来的にはTikTokなどのプラットフォームで展開される可能性があります。
技術の進化
「Omni-Conditions Training」による学習強化で、よりリアルな動画生成が可能になると予測されます。
6. まとめ
OmniHuman-1は、人物画像と音声を組み合わせてリアルな動画を生成する革新的なAI技術です。特にVTuberやバーチャルアナウンサー、教育分野などでの活用が期待されています。
また、TikTokのような動画プラットフォームが若者に広く利用されていることを考えると、この技術の登場によって、学生(10代)の動画クリエイターが次々と誕生する可能性も高いでしょう。
一方で、こうした新たな動画制作の自由度が広がることで、フェイク映像のリスクや、情報の信頼性が損なわれる可能性も懸念されます。特に、若年層のクリエイターはメディアリテラシー、AIリテラシーが不足しているケースが多く、生成AIによる誤情報や悪用のリスクが大きくなる恐れがあります。
今後の技術進化とともに、規制やリテラシー教育の充実が求められる中、OmniHuman-1が商業展開によって動画生成AIの新たなスタンダードとなるかどうか、その成長の行方を今後も「AIとハタラクラボ」でお届けしていきます。
7.(補足) Diffusion Transformer(DiT)とは
※本章ではOmniHuman-1が採用する「Diffusion Transformer(DiT)」について技術的な解説を行います。技術の詳細に興味がある方はご覧ください。
Diffusion Transformer(DiT)は、拡散モデル*¹とトランスフォーマーアーキテクチャ*²を組み合わせた新しいタイプの生成モデルです。
このDiTは、画像生成タスクにおいて高い性能を発揮することを目的としています。
アーキテクチャの特徴
DiTは、次のような違いがあります。
トークン化:画像を小さなパッチに分割し、それをトークンとしてトランスフォーマーに入力します。これにより、局所的な情報を効率的に学習することが可能です。
条件付き入力の処理:拡散過程におけるタイムステップ*³に加えて、クラスラベル*⁴といった追加情報を条件として組み込むことができ、単なる画像生成だけではなく、特定の条件に基づいた画像生成が可能になります。例えば、「赤いギター」や「高層ビルが立ちならぶ都会の街並み」といった具体的な条件に合致した画像を生成することができます。
スケーラビリティ:モデルのサイズや計算量(Gflops)を増やし、DiTのサイズ(トランスフォーマーの深さや幅、入力トークン数)を大きくすることで、より細かく、リアルな画像が生成することが可能です。
総じて、DiTは従来の拡散モデルと比較して、トークン化による高品質な画像生成、条件付き生成の柔軟性、スケーラビリティの向上などの点で優れており、特に大規模な画像生成タスクや、特定のカテゴリに応じた画像生成に適したモデルとなっています。
*1 拡散モデル
画像や音声などのデータを生成するための一般的なAIモデルの一つ。
データに徐々にノイズを加えていく「拡散過程」と、そのノイズを取り除いて元のデータを再構築する「逆拡散過程」の2つのステップで構成されています。
🔹従来の画像生成のプロセス
従来の画像生成AIのプロセスでは、エンコーダが入力画像の特徴を抽出し、それを圧縮してコンパクトな表現に変換した後、デコーダがその特徴を基に新しい画像を生成。
※エコーダ
情報を圧縮して重要な特徴を抽出する役割を持ち、入力データをコンパクトな表現に圧縮する。
画像認識:
写真(犬) → エンコーダ → 犬の耳や鼻、体の輪郭などの特徴を抽出
※デコーダ
エンコーダが抽出した情報を基に新しいデータを作る役割を持ち、エンコーダが圧縮した情報を基に、人間が理解できる形に復元する。
画像生成:
エンコーダが特徴を抽出 → デコーダが新しい画像を作成
*2 トランスフォーマーアーキテクチャ
トランスフォーマー(Transformer)とは、情報を効率よく処理し、パターンを学ぶためのAIモデルの構造(アーキテクチャ)です。(ChatGPTなどにも使用されています)
🔹 トランスフォーマーの特徴
I.「自己注意機構(Self-Attention)」を利用
詳細はこちらから▼
Ⅱ.「並列処理が得意」で速い
Ⅲ.「大規模なデータで学習できる」
GPT(ChatGPT)など、最新のAIモデルの多くがトランスフォーマーを採用
学習データを増やせば増やすほど、より賢く・正確なAIモデルを作れる
*3 タイムステップ
画像生成の過程の各ステップで、ノイズを徐々に取り除きながら画像を生成していく手法。
*4 クラスラベル
「犬」や「ギター」といった生成したい画像のカテゴリ情報。
8.執筆、編集作業の所要時間
所要時間: 80分
人間: 50分
AI: 30分
内訳
記事執筆(by 人間): 50分
誤字脱字の確認(by AI): 10分
編集(by AI): 10分
添削(by AI): 10分
人間のみで記事作成した場合に想定される所要時間: 110分
AIによる所要時間削減率: 27.3%