به گوش های خود اعتماد نکنید! صدای دیپ فیک (بخش 1)

به گوش های خود اعتماد نکنید! صدای دیپ فیک (بخش 1)

دیپ‌فیک‌های صوتی که می‌توانند صدای هر کسی را تقلید کنند، در حال حاضر برای کلاهبرداری‌های چند میلیون دلاری استفاده می‌شوند. دیپ فیک چگونه ساخته می شود و آیا می توانید از خود در برابر قربانی شدن محافظت کنید؟

آیا تا به حال فکر کرده اید که چگونه بفهمیم با چه کسی تلفنی صحبت می کنیم؟ بدیهی است که این چیزی بیش از نام نمایش داده شده روی صفحه است. اگر هنگام تماس از یک شماره ذخیره شده صدای ناآشنا بشنویم، بلافاصله متوجه می شویم که مشکلی وجود دارد. برای تعیین اینکه واقعاً با چه کسی صحبت می کنیم، ناخودآگاه آهنگ، نحوه و آهنگ گفتار را یادداشت می کنیم. اما شنوایی ما در عصر دیجیتال هوش مصنوعی چقدر قابل اعتماد است؟ همانطور که آخرین اخبار نشان می دهد، آنچه می شنویم همیشه ارزش اعتماد ندارد – زیرا صداها می توانند جعلی باشند: عمیق جعلی.

کمک کنید، من در مشکل هستم

در بهار 2023، کلاهبرداران در آریزونا تلاش کردند تا از طریق تلفن از یک زن اخاذی کنند. او صدای دختر 15 ساله‌اش را شنید که درخواست کمک می‌کرد، قبل از اینکه مردی ناشناس گوشی را گرفت و باج بگیرد، در حالی که فریادهای دخترش هنوز در پس‌زمینه شنیده می‌شد. مادر معتقد بود که صدا واقعاً صدای فرزندش است. خوشبختانه، او به سرعت متوجه شد که همه چیز با دخترش خوب است، و او متوجه شد که او قربانی کلاهبرداران است.

نمی توان 100٪ ثابت کرد که مهاجمان از یک دیپ فیک برای تقلید صدای نوجوان استفاده کرده اند. شاید کلاهبرداری ماهیت سنتی‌تری داشته باشد، کیفیت تماس، وضعیت غیرمنتظره، استرس، و تخیل مادر همه نقش خود را ایفا می‌کنند تا او فکر کند چیزی را شنیده است که نمی‌شنود. اما حتی اگر در این مورد از فناوری‌های شبکه عصبی استفاده نمی‌شد، دیپ‌فیک‌ها واقعاً می‌توانند اتفاق بیفتند و اتفاق می‌افتند، و با ادامه توسعه آن‌ها، به طور فزاینده‌ای متقاعدکننده و خطرناک‌تر می‌شوند. برای مبارزه با بهره برداری از فناوری دیپ فیک توسط مجرمان، باید نحوه عملکرد آن را درک کنیم.

دیپ فیک چیست؟

هوش مصنوعی Deepfake (“یادگیری عمیق” + “جعلی”) در چند سال گذشته با سرعت زیادی در حال رشد بوده است. از یادگیری ماشینی می توان برای ایجاد تقلبی قانع کننده از تصاویر، ویدئو یا محتوای صوتی استفاده کرد. به عنوان مثال، شبکه‌های عصبی را می‌توان در عکس‌ها و ویدیوها به کار برد تا چهره یک فرد را با چهره دیگری جایگزین کند و در عین حال حالت‌های چهره و نور را حفظ کند. در حالی که در ابتدا این جعلی ها کیفیت پایینی داشتند و به راحتی قابل تشخیص بودند، با توسعه الگوریتم ها، نتایج آنقدر قانع کننده شدند که اکنون تشخیص آنها از واقعیت دشوار است. در سال 2022، اولین برنامه تلویزیونی دیپ فیک جهان در روسیه منتشر شد که در آن دیپ فیک های جیسون استاتهام، مارگو رابی، کیانو ریوز و رابرت پتینسون نقش های اصلی را بازی می کنند.

تبدیل صدا

اما امروزه تمرکز ما بر روی فناوری مورد استفاده برای ایجاد دیپ فیک صوتی است. این همچنین به عنوان تبدیل صدا (یا “کلون سازی صدا” در صورت ایجاد یک نسخه دیجیتال کامل از آن) شناخته می شود. تبدیل صدا بر اساس رمزگذارهای خودکار است – نوعی شبکه عصبی که ابتدا داده‌های ورودی (بخشی از رمزگذار) را به یک نمایش داخلی فشرده فشرده می‌کند و سپس یاد می‌گیرد که آن را از این نمایش (بخشی از رمزگشا) از حالت فشرده خارج کند تا داده‌های اصلی را بازیابی کند. . به این ترتیب مدل یاد می گیرد که داده ها را در قالب فشرده ارائه کند و در عین حال مهم ترین اطلاعات را برجسته کند.

برای ایجاد دیپ‌فیک صدا، دو صدای ضبط شده به مدل وارد می‌شود که صدای ضبط دوم به اولی تبدیل می‌شود. رمزگذار محتوا برای تعیین آنچه از ضبط اول گفته شده است، و رمزگذار بلندگو برای استخراج ویژگی های اصلی صدا از ضبط دوم استفاده می شود – به این معنی که شخص دوم چگونه صحبت می کند. نمایش های فشرده از آنچه باید گفته شود و چگونه گفته می شود با هم ترکیب می شوند و نتیجه با استفاده از رمزگشا ایجاد می شود. بنابراین آنچه در ضبط اول گفته می شود توسط شخص ضبط دوم بیان می شود.

روش‌های دیگری نیز وجود دارند که از رمزگذارهای خودکار استفاده می‌کنند، برای مثال آنهایی که از شبکه‌های متخاصم مولد (GAN) یا مدل‌های انتشار استفاده می‌کنند. تحقیقات در مورد نحوه ساخت دیپ فیک به ویژه توسط صنعت فیلم پشتیبانی می شود. در مورد آن فکر کنید: با دیپ‌فیک‌های صوتی و تصویری، می‌توان چهره بازیگران فیلم‌ها و برنامه‌های تلویزیونی را جایگزین کرد و فیلم‌ها را با حالات چهره همگام‌سازی شده به هر زبانی دوبله کرد.

چگونه انجام می شود

همانطور که در حال تحقیق در مورد فن آوری های دیپ فیک بودیم، به این فکر کردیم که چقدر سخت است که صدای خود را دیپ فیک کنیم؟ به نظر می رسد ابزارهای منبع باز رایگان زیادی برای کار با تبدیل صوتی وجود دارد، اما گرفتن نتیجه با کیفیت بالا با آنها کار آسانی نیست. این به تجربه برنامه نویسی پایتون و مهارت های پردازش خوب نیاز دارد، و حتی در این صورت کیفیت بسیار دور از ایده آل است. علاوه بر منبع باز، راه حل های اختصاصی و پولی نیز موجود است.

به عنوان مثال، در اوایل سال 2023، مایکروسافت الگوریتمی را معرفی کرد که می تواند صدای انسان را بر اساس یک مثال صوتی که تنها سه ثانیه طول می کشد، بازتولید کند! این مدل همچنین با چندین زبان کار می کند، بنابراین می توانید حتی صحبت کردن خود را به یک زبان خارجی بشنوید. همه اینها امیدوارکننده به نظر می رسد، اما تا کنون فقط در مرحله تحقیق است. اما پلتفرم ElevenLabs به کاربران امکان می‌دهد بدون هیچ تلاشی دیپ‌فیک‌های صوتی بسازند: فقط یک ضبط صوتی از صدا و کلماتی که باید گفته شود آپلود کنید، و تمام. البته، به محض اینکه این خبر منتشر شد، مردم شروع به بازی با این فناوری به انواع مختلف کردند.

نبرد هرمیون و بانکی بیش از حد قابل اعتماد

طبق قانون گادوین، اما واتسون مجبور به خواندن “Mein Kampf” شد و کاربر دیگری از فناوری ElevenLabs برای “هک” حساب بانکی خود استفاده کرد. وحشتناک به نظر می رسد؟ این برای ما نیز صدق می کند – به خصوص وقتی داستان های ترسناک رایج در مورد کلاهبردارانی را که نمونه هایی از صداها را از طریق تلفن جمع آوری می کنند، با گفتن «بله» یا «تأیید» از مردم در حالی که وانمود می کنند که یک بانک، آژانس دولتی یا خدمات نظرسنجی هستند را به این ترکیب اضافه کنید. و سپس با استفاده از مجوز صوتی پول را سرقت کنید.

پیام بگذارید

آدرس ایمیل شما منتشر نخواهد شد.