Using MLAAD for Source Tracing of Audio Deepfakes

Languages

Train: en, fr, de, pl, it, ko, lt, ar
Dev: ar, en, it, de, fr, pl, es, zh-cn, hi, ru, uk, sk, da, sv, et, cs, ga, tr, fi, hr, ro
Eval: en, de, fr, pl, it, lt, ar, ko, nl, ja, pt, ru, es, cs, tr, hu, vi, bg, fa, bn, ga, sl, fi, sw, et, uk, mt, zh-cn, el, th, lv, ro, hi, tk, sk, sv, da

Model IDs

Train: tts_models/en/ljspeech/tacotron2-DCA, tts_models/en/ljspeech/tacotron2-DDC, tts_models/en/ljspeech/tacotron2-DDC_ph, Metavoice-1B, tts_models/en/ljspeech/speedy-speech, vixTTS, tts_models/multilingual/multi-dataset/xtts_v2, griffin_lim, tts_models/en/ljspeech/fast_pitch, MeloTTS, tts_models/en/ljspeech/vits--neon, tts_models/multilingual/multi-dataset/xtts_v1.1, suno/bark-small, suno/bark, Mars5, tts_models/fr/mai/tacotron2-DDC, tts_models/fr/css10/vits, facebook/mms-tts-deu, tts_models/de/css10/vits-neon, tts_models/de/thorsten/tacotron2-DDC, tts_models/it/mai_male/vits, tts_models/it/mai_female/glow-tts, tts_models/it/mai_female/vits, tts_models/lt/cv/vits
Dev: tts_models/multilingual/multi-dataset/xtts_v2, tts_models/en/ljspeech/speedy-speech, griffin_lim, tts_models/en/ljspeech/vits--neon, tts_models/en/ljspeech/fast_pitch, vixTTS, tts_models/it/mai_female/glow-tts, facebook/mms-tts-eng, tts_models/multilingual/multi-dataset/bark, tts_models/en/sam/tacotron-DDC, WhisperSpeech, tts_models/en/ljspeech/neural_hmm, parler_tts_mini_v0.1, tts_models/pl/mai_female/vits, tts_models/multilingual/multi-dataset/xtts_v1.1, tts_models/es/css10/vits, facebook/mms-tts-ukr, tts_models/sk/cv/vits, tts_models/uk/mai/vits, tts_models/et/cv/vits, tts_models/es/mai/tacotron2-DDC, tts_models/cs/cv/vits, tts_models/fi/css10/vits, tts_models/hr/cv/vits, facebook/mms-tts-ron
Eval: tts_models/en/ljspeech/tacotron2-DDC_ph, suno/bark, suno/bark-small, Mars5, tts_models/multilingual/multi-dataset/xtts_v1.1, tts_models/fr/mai/tacotron2-DDC, facebook/mms-tts-deu, griffin_lim, tts_models/en/ljspeech/tacotron2-DCA, tts_models/multilingual/multi-dataset/xtts_v2, tts_models/en/ljspeech/tacotron2-DDC, tts_models/it/mai_female/vits, tts_models/fr/css10/vits, tts_models/de/css10/vits-neon, tts_models/de/thorsten/tacotron2-DDC, tts_models/lt/cv/vits, MeloTTS, Metavoice-1B, tts_models/it/mai_male/vits, tts_models/multilingual/multi-dataset/bark, parler_tts_mini_v1, tts_models/en/blizzard2013/capacitron-t2-c50, tts_models/it/mai_male/glow-tts, parler_tts_large_v1, tts_models/en/ljspeech/vits, tts_models/en/ljspeech/vits--neon, OpenVoiceV2, MatchaTTS, WhisperSpeech, optispeech, microsoft/speecht5_tts, tts_models/de/thorsten/tacotron2-DCA, e2-tts, tts_models/de/thorsten/vits, facebook/mms-tts-fra, tts_models/en/ek1/tacotron2, tts_models/en/ljspeech/overflow, tts_models/en/multi-dataset/tortoise-v2, f5-tts, tts_models/en/ljspeech/glow-tts, tts_models/en/jenny/jenny, vixTTS, tts_models/bg/cv/vits, tts_models/bn/custom/vits-female, tts_models/ga/cv/vits, tts_models/sl/cv/vits, facebook/mms-tts-swe, tts_models/uk/mai/glow-tts, facebook/mms-tts-hun, tts_models/fa/custom/glow-tts, tts_models/zh-CN/baker/tacotron2-DDC-GST, tts_models/lv/cv/vits, tts_models/mt/cv/vits, facebook/mms-tts-rus, tts_models/bn/custom/vits-male, tts_models/el/cv/vits, facebook/mms-tts-fin, tts_models/tr/common-voice/glow-tts, facebook/mms-tts-nld, tts_models/hu/css10/vits, tts_models/pt/cv/vits, tts_models/ro/cv/vits, tts_models/sv/cv/vits, tts_models/da/cv/vits

Dataset Statistics

Train: 11,100 samples
Dev: 12,000 samples
Eval: 33,900 samples

Fine-Grained Statistics

Development:
- 3000 samples, 5 languages, 7 models (Seen Language, Seen Architecture).
- 2700 samples, 5 languages, 7 models (Seen Language, Unseen Architecture).
- 1800 samples, 5 languages, 3 models (Unseen Language, Seen Architecture).
- 4500 samples, 12 languages, 11 models (Unseen Language, Unseen Architecture).
Evaluation:
- 8700 samples, 8 languages, 19 models (Seen Language, Seen Architecture).
- 7500 samples, 6 languages, 22 models (Seen Language, Unseen Architecture).
- 4800 samples, 9 languages, 4 models (Unseen Language, Seen Architecture).
- 12900 samples, 28 languages, 24 models (Unseen Language, Unseen Architecture).

Citation

You may cite the protocols as follows


@misc{UsingMLAADforSourceTracing,
    author = {Nicolas M{\"u}ller},
    organization = {Fraunhofer AISEC},
    title = {Using MLAAD for Source Tracing of Audio Deepfakes},
    howpublished = {\url{https://deepfake-total.com/sourcetracing}},
    month = {11},
    year = {2024},
}

Using MLAAD for Source Tracing of Audio Deepfakes

Downloads

Languages

Model IDs

Dataset Statistics

Fine-Grained Statistics

Citation