May 15, 2021

シンセティックメディアとは何でしょうか? そして、それはデジタルヒューマン技術とはどのように区別されるのでしょうか?

合成メディアはディープフェイク以上のものであり、デジタルヒューマンとはまったく別の存在です。以下にその技術の創造的な活用例をいくつか紹介します。

シンセティックメディアとは何でしょうか? そして、それはデジタルヒューマン技術とはどのように区別されるのでしょうか?

- こちらの記事はdigitalhumans.comから機械翻訳し、修正したものです。

合成メディアは、特にディープフェイク(この話題にもちろん触れます)の観点から、操作と同義語となっています。これは技術がフェイクニュースや真実の誤解を引き起こす可能性に関する懸念から大衆の認知を高めた結果です。

しかし、合成メディアはディープフェイクだけではなく、カテゴリー全体として、テクノロジーの配列全体を指すものです。合成メディアの興味深く、創造的なアプリケーションは、ポップカルチャーや商業環境にも見られます。

また、合成メディアとデジタルヒューマンの間には興味深い交差点が存在しており、今回はそれを詳細に解説します。

合成メディアとは何ですか?

合成メディアは、"機械"、特に人工知能と機械学習に依存するプログラムによるメディアの人工的な生成や変更を包括するための用語です。

言い換えれば、テクノロジーによって生成されるメディアです。このため、合成メディアは"AI生成メディア"とも呼ばれます。

現在の合成メディアのタイプには、AIによる音楽作成、テキスト生成、画像やビデオ、音声合成などが含まれます。

合成メディアの領域は、新しいものの制作をより簡単にし、伝統的なメディアのさまざまな部分を混乱させることを目指す合成メディア企業の存在により、日々拡大しています。

例えば、トム・クルーズが出演するビデオを録画することは、コストがかかるだけでなく時間もかかるプロジェクトですが、今ではほぼ驚くほど正確なディープフェイク版の彼を作成することが可能となりました。

ここで、現在最も人気があり、また賛否両論の合成メディアについて触れてみましょう。

ディープフェイクについてはどうでしょうか?

合成メディアについての議論をする際には、間違いなく最も有名で、一番よく知られた形態であるディープフェイクを無視することはできません。

ディープフェイクは、「ディープラーニング」と「フェイク」の合成語であり、2017年末に初めて登場しました。生成敵対ネットワーク(GANs)と呼ばれるディープラーニング技術を利用して、ディープフェイクは一般的に、一人の顔(通常、セレブリティ)を別の人の顔にオーバーレイする、というものです。これは、ほとんどがリアルタイムで行われます。

ディープフェイク技術を使うことで、私たちが見聞きするメディアを素早く簡単に操作することが可能になります。

ディープフェイクの技術は、2017年以降急速に人気を博しています。 Mooreの法則の奇妙なパロディのように、ある推定によれば、オンラインに公開されているディープフェイク動画の数は、6ヶ月ごとに倍増しています。

明らかに、この技術の性質は、画像の権利侵害の可能性から、フェイクニュースの拡散や詐欺に利用される可能性まで、多くの倫理的問題をはらんでいます。ディープフェイクが出現してから数年間で、有名人のポルノを許可なく作成したり、影響力のある人々が実際には言ったり行ったりしなかったことをさせることでフェイクニュースを拡散したりさらには歴史を書き換えるのに利用されてきました。

また、少し軽い面では、ディープフェイクは、2020年のミュージックビデオでTupacとSnoop Doggを再結成したり、社会的な孤立期間中にセレブが推奨する広告を作成したり、ミームを作成したりするために使われています-たくさんのミームがあります。

一方、ディープフェイクの品質は、印象的なものから、まったく笑えないほどのものまでさまざまです。

例えば、ディープフェイクのトム・クルーズの映像(上)を見ると、それが本物かどうか二度考えさせられます。一方、品質が劣るディープフェイクを見た人なら、不気味で不満足なアンキャニー・バレーに足を踏み入れることがどのようなものかを知っています。

2021年、ディープフェイクの品質は、その修正に費やせる時間の量に左右されることが明らかとなりました。 これが常に当てはまるわけではありませんが、深層偽造(少なくとも優れた深層偽造)が作成されるスピードを低下させる可能性があります。

デジタルヒューマンはシンセティックメディアですか?

デジタルヒューマンは、エキスパートのアニメーターやビジュアルエフェクトスペシャリストのチームによって設計された最先端のCGIを使用して作成されています。表情はプログラムされ、その後デジタルヒューマンプラットフォームによって自動的にアニメーション化されます。

現在、大多数のデジタルヒューマンが行う会話も、IBM Watson、Dialogflow、Lex(チャットボットの対話を作成するのと同じツール)などのプログラムを使用した会話デザインの専門家によって決定されています。

したがって、定義上、デジタルヒューマンという技術はシンセティックメディアのカテゴリにはきっちりと収まりません。それらはAIによって作り出されたメディアではなく、会話型AIの一種と言えます。

しかし、デジタルヒューマンの技術スタックの一部は、絶対にシンセティックメディアの種類を含むことができます。

例えば、Amazon Polly、WaveNet、Aflorithmic、WellSaid Labsが生み出す合成音声生成は、シンセティックメディアと見なすことができます。 GPT-3のような言語モデルは、人間の関与なしにメディアを生成するツールやソフトウェアです。

これらの技術は、あなたのUneeQデジタルヒューマン・エクスペリエンスの内容を提供することができます。例えば、デジタルヒューマンは合成音声生成を使用して、あなたが望むほぼ任意のことを言わせることができます。これは、人間が同じ文章を録音する必要がなくなるため、非常に便利です。GPT-3のようなツールを使えば、デジタルヒューマンが"手書き"で対話の各行を記述することなく、オープンエンドの会話を持つことができます。

最近では、このようなAI駆動のツールを使用して、デジタル・アインシュタインと、GPT-3搭載のデジタルヒューマン、ソフィーの両方を構築しました。

デジタル・アインシュタインは、Aflorithmicの技術を使用してまずアインシュタインの声をクローンし、その後彼がほぼ何でも言えるようにします。これは特に、彼が毎日のクイズのような動的なコンテンツを提供するときに役立ちます。

もし、あなたが合成メディアをビジネスで使用しようと考えるブランドであるなら、その種類や潜在的な使用ケースが多種多様なため、これが最善のイノベーション方法かどうかを答えるのは難しいと知っておくべきです。 しかしながら、合成メディアには、以下のような利点と欠点が考えられます:

合成メディアの利点

  • ほとんどのコンテンツは人間の介入を最小限に抑えて非常に迅速に作成することができます。
  • 合成メディアをコンシューマ向けに使用する場合、それらは24時間365日利用可能で、コンテンツはしばしばダイナミックに変化します。
  • 出力範囲は広く、合成メディアは文章、音楽、図面、絵画、音声、視覚要素を含めることが可能です。
  • 利用領域も広範囲で、合成メディアはアプリ、ウェブサイト、ゲーム環境、VR/AR体験、そしてその他多くのデジタルチャンネルに活用できます。
  • ユーザーが生成したコンテンツや第三者のプロバイダーを通じて、比較的単純に作成することが可能です。

合成メディアの欠点

  • 作成内容に対するコントロールが限られ、AIが出力の品質や適切さを大幅に担当するため、ユーザーに対する発言や行動について制御が難しい。これにより、一部の合成メディアの形式はブランドにとってリスクを伴うことがあります。
  • ディープフェイク技術には信頼性に関する厄介な問題を克服する必要があります。 一般の人々は、偽のニュースを広めたり、それが現実ではないとしても現実だと信じさせる手段として利用される可能性を意識しています。
  • 音声や肖像画の合成技術は、顔認証や音声認証ソフトウェアなどのパーソナルな生体認証ツールを迂回できるという点で、特にセキュリティ問題を引き起こす可能性があるとして批判的に見られています。
  • ディープフェイクの肖像画は、しばしばアンキャニー・バレー(現実的に見えるが何かおかしい感じがする)に陥り、ユーザーが体験から離れてしまうことがあります。
  • AIが生成するクリエイティブメディア、例えば音楽や絵画に関しては、芸術や技巧が欠けているとの意見もあります。

ビジネスはどのように合成メディアを使用しているのでしょうか?

ブランドは現在、さまざまな形で合成メディアを使用しています。しかし、クリエイティブなコントロールをAI(自然には倫理的になれない)に委ねる現在のリスクのため、最も安全な消費者向けのアプリケーションには、何らかの形で人間の監督が介在しています。

例えば、私たちのデジタル・アインシュタイン体験は、彼の遺産の代理としてノーベル賞受賞者の権利を管理しているヘブライ大学とのパートナーシップで行われました。

GPT-3から会話能力を引き出した我々のデジタルヒューマン、ソフィについては、OpenAIのチームの協力のもと、彼女が話すことができ、また話さないことついてのガードレールを設定しました。 私たちがどのようにこれを実現したかについては、この記事で詳しく説明しています。これがあなた自身の合成メディアの課題を軽減するのに役立つかもしれません。

同様に、ディープフェイクの商用利用は特に広告や映画に焦点を当てており、最終的な出力を厳密に制御することが可能です。

ブランドのESPNなどは、伝説的なNFLのライバルであるアル・デイビスとピート・ロゼルを、伝統的なCGIを使わずに亡くなった2人の顔をアニメーション化するディープフェイク技術を使って視聴者に再び紹介しています。

一方、Huluは社会的な孤立制限を克服し、NBA選手のダミアン・リラード、カナダのホッケー選手のシドニー・クロスビー、WNBA選手のスカイラー・ディギンス・スミスを主演にした広告をディープフェイクで制作しました。

インフルエンサー業界から伝統的な広告、映画、TVまで、あらゆる人々が関与しているため、合成メディアは間違いなく主流へと進出を続けるでしょう。

しかし、我々がよく言うように、顧客体験はすべてです。これらの合成メディア技術がどのように使用されるかが、ユーザーにとって最高の体験を提供するか否かを決定します。

一部はAIによるアートワークのような好奇心から生まれるプロジェクトで、他の一部はデジタルワークフォースの一部となり、シンセティックメディアの利点をよりコントロール可能な商業環境に統合することができます。

現在、合成音声と会話技術で何が可能か確認したいのであれば、以下から私たちのデジタルヒューマン、ソフィーに話しかけてみてください。あなたの体験談をお聞かせいただけると嬉しいです!