はいどうもこんばんわのぶっちです!しゃべる(口パク)AI画像イラストを作りたいとおもったことはないですか?今回は、無料でStable Diffusionの拡張機能『SadTalker』を使えば簡単につくれるので解説したいと思います。
ただエラーでなやまされますが、レッツゴー!
口パク動画が作れるSadTalkerとは
AIの力で画像を本物そっくりの話す動画に変えることができる拡張機能です。たとえば、自分の声や顔を使って、文章を読み上げツール『音読君』や『VOICE VOX』を使用すれば話す動画を作ったりできます。
導入に少しやっかいですが必要なもの
①FFmpegを公式ページからダウンロード
②FFmpegの環境変数パスを通す
②Stable Diffusionで拡張機能のインストール
④モデルのダウンロードと指定の場所に配置
FFmpegを公式ページからダウンロード
FFmpeg(エフエフエムペグ)は動画と音声を記録・変換・再生するためのフリーソフトウェアなのでSadTalkerのような動画や音声を扱う上で必ず必要になってきます。
Windows64bitはここをクリック『ffmpeg-master-latest-win64-gpl.zip』でダウンロードが始まります。
不安な方は下の手順をお願いします。
FFmpegの公式リンクページからダウンロードをクリックしてください。
お使いのOSマークを選んで、「Windows builds by BtbN」を選んでその先のzipファイルをダウンロードします。解答には特殊のファイルを開く7.zが必要になります。
![](http://aidolmix.com/wp-content/uploads/pz-linkcard/cache/91ee725161187cb11695cca71d8b36f795c8a62f80069d4c86c822ba598e0a56.jpeg)
Windows 11 (64bit) の場合は「64ビット x64」と表示された「ダウンロード」をクリックしてFFmpegを解凍してくでさい。
FFmpegの環境変数を変える
環境変数を変えるのに色々あるのですが、サイト『悠々ろぐ』が分かりやすかったので参考にしたいと思います。
まずは名前の変更です。元の『ffmpeg-master-latest-win64-gpl』から『ffmpeg』に変えてCドライブ直下に移動させてね。
C:\Windows\System32の中にある検索窓に「cmd.exe」と入力するとこのような感じに表示されます。
「cmd.exe」を右クリックで管理者として実行をくりっくし、下のコマンドをコピーし貼り付けます。
setx /m PATH "C:\ffmpeg\bin;%PATH%"
これでパスが通ったので完了ですたぶん。これでもだめならWindowsのマークの検索窓で環境変数入力するとこの画面がでてきます。
path→編集とお進みください。
新規追加より、僕と同じCドライブ直下にFFmpegをいれていると『C:\ffmpeg\bin』のpathになります。
Stable Diffusionで拡張機能『SadTalker』の導入
extensionsよりinstall from URLに以下のリンクをコピーして貼り付けてinstallしてね。
https://github.com/OpenTalker/SadTalker.git
installedよりapply and restartをクリックしてWEBUIを立ち上げなおしましょう。
SadTalkerのモデルファイルの導入
もし、『facevid2vid_00189-model.pth』がなければこれも下のリンクからダウンロードしてください。
カーソルで全て合わせてモデルのダウンロードを全部ダウンロードします。『stable-diffusion-webui→extensions→SadTalker』に『checkpoints』フォルダーを作成します。
checkpointsに圧縮されたファイルを『checkpoints』に投げて解凍しまとこのような形に配置されてれば完了です。
こちらは、checkpointsのパスを通す方法になりますが、無くてもできたりするのでお任せになります。
ステーブルディフュージョンのweb-user.batを右クリックして編集を押すとテキストが出てきます。
@echo off
set PYTHON= call webui.bat |
新しく『set SADTALKER_CHECKPOINTS=』を追加してcheckpointsを右クリックでパスをコピーしてイコールの横に『”』を削除してついかしてね。
C:\Users\ユーザーネーム\Desktop\stable-diffusion-webui\extensions\SadTalker\checkpoints |
Stable Diffusionで拡張機能『SadTalker』のSadTalkerの使い方
使い方なんですが、極力正面を向いてる口がはっきりとわかる画像512×512か256×256を用意してアップロードイメージに投げてあげましょう。
アップロードオアTTSには『音読さん』や『ボイスボックス』、僕のチャンネルで紹介している『RVC サイレント』のもので音声を作って投げてあげてね。
Pose style:恐らくですが口の動きや顔の動きの調整が出来るとおもいます。
face model resolution:512か256のサイズしていができます。ツイッターとかに上げるので512を推奨します。
GFPGAN:は、顔を固定する機能だと思います。?
後は、ジェネレイトをクリックすれば、結構時間かかりますが、生成が完了すると『stable-diffusion-webui\outputs\SadTalker』のフォルダの中に入ってます。
SadTalkerのエラー
FileNotFoundError: [Errno 2] No such file or directoryのエラーが出る場合、環境変数にFFmpegのパスが通ってないとおもいます。僕の場合、ステーブルディフュージョンを入れなおしたらパスが通っててなおりました。
まとめ
いかがだったでしょうか?FFmpegのパスを通すのが厄介ですが、導入してつかえるようになるとSNSで面白い話や為になる話を日々更新すれば人気ものになるとおもいます。
こちらの記事もよく読まれています。