わずか10歳のときに映画『ハリー・ポッター』でハーマイオニー・グレンジャー役に抜擢され、一躍スターダムを駆け上がったエマ・ワトソン。悲しいことに、彼女もネット上で「ディープフェイク」の標的にされてしまったようだ。

ディープフェイクとは、人工知能(AI)が生成する合成メディアの一種で、動画や画像を合成し、あたかも誰かが実際に動作しているように見せることができる技術のこと。最近は、ディープフェイクに関心を持つ運動家たちがこの言葉の認知度を高め、厳格な法の整備を促そうと働きかけているため、私たちの日常においても少しずつディープフェイクというワードが定着しつつある。

しかし、ディープフェイクがまだ大衆の意識にまで浸透していない現在の初期段階では、そのほとんどが、本人の同意なしに作られた政治的な動画や、女性の画像を編集したポルノ動画として認識されている。

しかし、こうしたディープフェイク動画以外にも、私たちが関心を持ち、話題にすべきことがある――それは、「ディープフェイク音声」だ。

誰かの声をディープフェイクできる?

オンライン上にあるディープフェイクコンテンツの9割以上は、有名人や一般人の被害女性が登場する性的な内容で、大半が本人の同意を得ずに作られているもの。

同じく憂慮すべき点は、月間数百万ヒットを記録するディープフェイクサイトで人気な有名人の多くが、若い頃にスポットライトを浴びた人たちで、彼らの未成年期の画像がポルノ動画に使用されている例もあるということだ。

frontal view of a cassette audio tape with black backgroundpinterest
Getty Images

2023年現在、Photoshopなどの加工アプリで手を加えられた画像が、免責事項なしに一般的に作成・投稿できる(そして、実際に投稿されている)ことは周知の事実。私たちはInstagramで、不自然に曲がったドアフレームや歪んだフロアタイルなどを見て、加工された画像を判別することができる。カーダシアン家やジェンナー家のメンバーなどが、よく加工ミスを指摘されているのをご存じの人も多いだろう。

また、映像も同じく加工できるという認識が徐々に浸透しつつある。たとえば、ニッキー・ミナージュのミュージックビデオでは、彼女が痩せて見えるようにフィルターをかけられているほか、英国のストリーミングサービス「ITVX」による新シリーズ『ディープフェイク・ネイバー・ウォーズ(Deep Fake Neighbour Wars)』では、本人そっくりのイドリス・エルバやリアーナ、グレタ・トゥーンベリ、キム・カーダシアンといったセレブたちが、“厄介な隣人”として登場したりもしている(セレブたちは、本人に成り済ました人の体や声を使ってAIで生成されている)。

ITVXが一体どのようにしてセレブたちの画像を使うことができたのか、不思議かつ不気味ではあるものの、おそらく同意の有無にかかわらず、誰かの画像をディープフェイクすることを取り締まる厳しい法律が存在しない(英国政府は、新たなオンライン安全法案で部分的に対処すると約束したものの)ことが、その一因であると考えられる。

ITVXの広報担当者は、UK版『コスモポリタン』にこう答えている。「モノマネ芸人によるお笑いエンタメ番組は、TVが誕生して以来ずっと放映されています。しかし当社の番組は、こうしたジャンルにエキサイティングで新鮮な視点をもたらすために、最新のAI技術を使用しているというところが異なります」

各エピソードの冒頭には、「取り上げているセレブたちは誰も同意していない」という免責事項を掲載し、画面には「Deep Fake(ディープフェイク)」との文字が終始表示されている。

instagramView full post on Instagram

しかし、ディープフェイク音声を取り締まる規制は、画像や動画以上に脆弱なものだ。そして今、ディープフェイク音声による被害が、同じように素早く広がっているのも事実。悲しいことに、エマ・ワトソンは再びとてつもない規模で標的にされてしまった。

最近では“彼女”が、国際的に批判の対象となってきたアドルフ・ヒトラーの著作『我が闘争』を読み上げる不気味なディープフェイク音声が、「4chan」(世界最大クラスの匿名掲示板)に投稿され、この技術がいかに強力で身近になっているかが証明された。

さらに規模の大きな被害を挙げると、2020年には、犯罪者がディープフェイク音声を使って香港のある銀行の支店長を騙し、3500万ドル(約47億円)の送金を承認させたという事件も起きている。

また、個人を脅迫するためにディープフェイク音声(またはディープボイシング)が使用されたり、裁判の証拠として偽造した動画が提出されたりする可能性についても懸念が広がっている。

では、この問題に対して私たちには何ができるのだろうか?

テクノロジーサイト『マザーボード(Motherboard)』は、上述のエマ・ワトソンの声は、ポーランドを拠点とするAIスタートアップ「ElevenLabs」の最新音声シミュレートプログラムのベータ版を使って作られたと示唆している。

別のメディアもこの意見を支持しており、テクノロジー系ニュースサイト『The Verge』では、ElevenLabsを用いて実験を行い、ジョー・バイデン大統領の音声クローンを数分で作成し、彼らが書いた台本を読ませることができたとの報告もある。

こうした報道やSNS上での懸念の高まりを受けたElevenLabs社は、その後Twitterで、音声コピーAIを匿名や有害な理由で利用しようとする人を取り締まるというスレッドを投稿。

1月31日に発表された声明文には次のように書かれている。「当社では、生成されたオーディオクリップを追跡し、ユーザーを特定する機能を常に備えています。今回はさらに一歩踏み込んで、特定のサンプルが当社のテクノロジーで生成されたものかどうかを誰でも検証でき、不正使用を報告できるツールをリリースします」

「悪意のあるコンテンツのほとんどは、無料の匿名アカウントによって生成されたものであるため、さらなる本人確認が必要です。こうした理由から、VoiceLabは有料サービスでのみ利用できるようにします。この変更は早急に行う予定です」

「当社は報告された有害コンテンツの発信元であるアカウントを追跡しており、当社の利用規約に違反するアカウントを停止しました。今後も状況を監視し続けます」

a young woman with a smartphone in the subway of paris
Catherine Delahaye//Getty Images

ただ、ディープフェイク音声には有効な使い道も。テキストをポッドキャストやラジオの音声に変換したり、オーディオブックを作成したり、視覚障がいのあるユーザーに役立ったりするという意見もある。

ElevenLabsのような技術では、有名人以外の声でも、必要なテキストや言葉を人間のような口調、抑揚、話し方で伝えることができるが(つまり、ロボットの声はもはやロボットのようには聞こえない)、この分野に参入したり、ユーザーが独自のディープフェイク音声でシナリオを作成する機会を提供したりしている企業はほかにもある。

これは、大きな社会的警鐘のひとつにすぎない。ディープフェイク技術(あるいはAI全般)は、今後私たちの生活のあらゆる側面にさらに深く関わってくるため、それに対する警戒心を持ち続けることがこれまで以上に重要になる。

テクノロジー界の権力者たちは、自分たちが作り上げた“獣”をもっとうまくコントロールしなければならず、政府は彼らにその責任を追わせなければならないだろう。

Translation: Masayo Fukaya From COSMOPOLITAN UK