Deepfake audio – czy to znajomy głos?

Cyfrowa iluzja – czym są i jak rozpoznawać deepfake

Wyobraź sobie, że siedzisz spokojnie w domu, gdy nagle dzwoni Twój telefon. Odbierasz, a w słuchawce słyszysz głos swojego wnuka lub wnuczki. Głos jest roztrzęsiony, może nieco zachrypnięty z emocji, ale nie masz najmniejszych wątpliwości – rozpoznajesz go natychmiast. Słyszysz prośbę o pilną pomoc finansową, bo wydarzył się wypadek. Od razu pojawia się strach i naturalna chęć ratowania bliskiej osoby, bo przecież słyszysz ją na własne uszy i niewątpliwie znajduje się w potrzebie, prawda?

Niestety, to może być bardzo sprytna pułapka. Dzisiaj oszuści nie muszą już udawać kogoś innego ani zmieniać tonu głosu.

Deepfake audio, nazywany często klonowaniem głosu, to nowoczesny sposób na niemal idealne podrobienie tego, w jaki sposób brzmi konkretna osoba. Jest to próba oszustwa, w której przestępcy wykorzystują programy komputerowe, aby stworzyć nagranie brzmiące jak głos kogoś, komu ufamy – na przykład członka rodziny, przyjaciela czy szefa.

Oszuści potrzebują zaledwie krótkiej próbki dźwięku (np. z filmu zamieszczonego w mediach społecznościowych), aby „nauczyć” komputer naśladowania intonacji i barwy głosu danej osoby. Dzięki temu mogą dzwonić do nas i prosić o pilną pomoc finansową lub podanie haseł, brzmiąc przy tym tak wiarygodnie, że może być naprawdę trudno nabrać podejrzeń.

Cały proces wygląda zazwyczaj tak:

Zbieranie próbek: Oszust najpierw musi zdobyć nagranie głosu osoby, pod którą chce się podszyć. W dzisiejszych czasach to proste – wystarczy krótki filmik, który wrzuciliśmy do internetu (np. nagranie z wakacji czy życzenia urodzinowe).
Nauka: Specjalny program komputerowy „słucha” tego nagrania tysiące razy w ciągu sekundy. Uczy się każdej nutki w głosie, tego, jak dana osoba oddycha, jak akcentuje słowa i jaką ma barwę głosu. Na tej podstawie komputer tworzy sobie „mapę” brzmienia tego konkretnego głosu.
Przemiana w czasie rzeczywistym: Gdy oszust do Ciebie dzwoni, mówi do swojego mikrofonu własnym głosem. Jednak program w jego komputerze natychmiast, w ułamku sekundy, zmienia jego słowa tak, by brzmiały jak głos osoby, pod którą chce się podszyć.

To trochę tak, jakby przestępca założył specjalny kostium, który zmienia wszystko, co wypowiada, na głos kogoś nam bliskiego. On mówi, co tylko chce, a my w słuchawce słyszymy znajome brzmienie, do którego mamy zaufanie.

Warto wiedzieć, że deepfake to niekoniecznie tylko nagrane wcześniej filmiki, które ktoś przesyła nam w wiadomości lub pokazuje w internecie. Dzisiejsza technologia pozwala oszustom nakładać „cyfrową maskę” na twarz w czasie rzeczywistym, czyli podczas trwającej właśnie rozmowy wideo. Oznacza to, że możesz rozmawiać z kimś przez komunikator (np. WhatsApp), widzieć twarz znajomego i słyszeć, jak odpowiada na Twoje pytania, podczas gdy w rzeczywistości po drugiej stronie siedzi przestępca, a jego głos i wizerunek są na bieżąco zmieniane przez komputer.

Co więcej, oszuści potrafią modyfikować nie tylko swoją twarz, ale także to, co widoczne jest za ich plecami. Fałszywe tło może sprawiać wrażenie, że ktoś dzwoni do Ciebie z poważnej instytucji, np. z biura banku, komisariatu policji czy sali szpitalnej. Wszystko po to, aby wzbudzić Twoje zaufanie i sprawić, by sytuacja wyglądała na oficjalną i prawdziwą.