دیپفیکهای صوتی که میتوانند صدای هر کسی را تقلید کنند، در حال حاضر برای کلاهبرداریهای چند میلیون دلاری استفاده میشوند. دیپ فیک چگونه ساخته می شود و آیا می توانید از خود در برابر قربانی شدن محافظت کنید؟
آیا تا به حال فکر کرده اید که چگونه بفهمیم با چه کسی تلفنی صحبت می کنیم؟ بدیهی است که این چیزی بیش از نام نمایش داده شده روی صفحه است. اگر هنگام تماس از یک شماره ذخیره شده صدای ناآشنا بشنویم، بلافاصله متوجه می شویم که مشکلی وجود دارد. برای تعیین اینکه واقعاً با چه کسی صحبت می کنیم، ناخودآگاه آهنگ، نحوه و آهنگ گفتار را یادداشت می کنیم. اما شنوایی ما در عصر دیجیتال هوش مصنوعی چقدر قابل اعتماد است؟ همانطور که آخرین اخبار نشان می دهد، آنچه می شنویم همیشه ارزش اعتماد ندارد – زیرا صداها می توانند جعلی باشند: عمیق جعلی.
کمک کنید، من در مشکل هستم
در بهار 2023، کلاهبرداران در آریزونا تلاش کردند تا از طریق تلفن از یک زن اخاذی کنند. او صدای دختر 15 سالهاش را شنید که درخواست کمک میکرد، قبل از اینکه مردی ناشناس گوشی را گرفت و باج بگیرد، در حالی که فریادهای دخترش هنوز در پسزمینه شنیده میشد. مادر معتقد بود که صدا واقعاً صدای فرزندش است. خوشبختانه، او به سرعت متوجه شد که همه چیز با دخترش خوب است، و او متوجه شد که او قربانی کلاهبرداران است.
نمی توان 100٪ ثابت کرد که مهاجمان از یک دیپ فیک برای تقلید صدای نوجوان استفاده کرده اند. شاید کلاهبرداری ماهیت سنتیتری داشته باشد، کیفیت تماس، وضعیت غیرمنتظره، استرس، و تخیل مادر همه نقش خود را ایفا میکنند تا او فکر کند چیزی را شنیده است که نمیشنود. اما حتی اگر در این مورد از فناوریهای شبکه عصبی استفاده نمیشد، دیپفیکها واقعاً میتوانند اتفاق بیفتند و اتفاق میافتند، و با ادامه توسعه آنها، به طور فزایندهای متقاعدکننده و خطرناکتر میشوند. برای مبارزه با بهره برداری از فناوری دیپ فیک توسط مجرمان، باید نحوه عملکرد آن را درک کنیم.
دیپ فیک چیست؟
هوش مصنوعی Deepfake (“یادگیری عمیق” + “جعلی”) در چند سال گذشته با سرعت زیادی در حال رشد بوده است. از یادگیری ماشینی می توان برای ایجاد تقلبی قانع کننده از تصاویر، ویدئو یا محتوای صوتی استفاده کرد. به عنوان مثال، شبکههای عصبی را میتوان در عکسها و ویدیوها به کار برد تا چهره یک فرد را با چهره دیگری جایگزین کند و در عین حال حالتهای چهره و نور را حفظ کند. در حالی که در ابتدا این جعلی ها کیفیت پایینی داشتند و به راحتی قابل تشخیص بودند، با توسعه الگوریتم ها، نتایج آنقدر قانع کننده شدند که اکنون تشخیص آنها از واقعیت دشوار است. در سال 2022، اولین برنامه تلویزیونی دیپ فیک جهان در روسیه منتشر شد که در آن دیپ فیک های جیسون استاتهام، مارگو رابی، کیانو ریوز و رابرت پتینسون نقش های اصلی را بازی می کنند.
تبدیل صدا
اما امروزه تمرکز ما بر روی فناوری مورد استفاده برای ایجاد دیپ فیک صوتی است. این همچنین به عنوان تبدیل صدا (یا “کلون سازی صدا” در صورت ایجاد یک نسخه دیجیتال کامل از آن) شناخته می شود. تبدیل صدا بر اساس رمزگذارهای خودکار است – نوعی شبکه عصبی که ابتدا دادههای ورودی (بخشی از رمزگذار) را به یک نمایش داخلی فشرده فشرده میکند و سپس یاد میگیرد که آن را از این نمایش (بخشی از رمزگشا) از حالت فشرده خارج کند تا دادههای اصلی را بازیابی کند. . به این ترتیب مدل یاد می گیرد که داده ها را در قالب فشرده ارائه کند و در عین حال مهم ترین اطلاعات را برجسته کند.
برای ایجاد دیپفیک صدا، دو صدای ضبط شده به مدل وارد میشود که صدای ضبط دوم به اولی تبدیل میشود. رمزگذار محتوا برای تعیین آنچه از ضبط اول گفته شده است، و رمزگذار بلندگو برای استخراج ویژگی های اصلی صدا از ضبط دوم استفاده می شود – به این معنی که شخص دوم چگونه صحبت می کند. نمایش های فشرده از آنچه باید گفته شود و چگونه گفته می شود با هم ترکیب می شوند و نتیجه با استفاده از رمزگشا ایجاد می شود. بنابراین آنچه در ضبط اول گفته می شود توسط شخص ضبط دوم بیان می شود.
روشهای دیگری نیز وجود دارند که از رمزگذارهای خودکار استفاده میکنند، برای مثال آنهایی که از شبکههای متخاصم مولد (GAN) یا مدلهای انتشار استفاده میکنند. تحقیقات در مورد نحوه ساخت دیپ فیک به ویژه توسط صنعت فیلم پشتیبانی می شود. در مورد آن فکر کنید: با دیپفیکهای صوتی و تصویری، میتوان چهره بازیگران فیلمها و برنامههای تلویزیونی را جایگزین کرد و فیلمها را با حالات چهره همگامسازی شده به هر زبانی دوبله کرد.
چگونه انجام می شود
همانطور که در حال تحقیق در مورد فن آوری های دیپ فیک بودیم، به این فکر کردیم که چقدر سخت است که صدای خود را دیپ فیک کنیم؟ به نظر می رسد ابزارهای منبع باز رایگان زیادی برای کار با تبدیل صوتی وجود دارد، اما گرفتن نتیجه با کیفیت بالا با آنها کار آسانی نیست. این به تجربه برنامه نویسی پایتون و مهارت های پردازش خوب نیاز دارد، و حتی در این صورت کیفیت بسیار دور از ایده آل است. علاوه بر منبع باز، راه حل های اختصاصی و پولی نیز موجود است.
به عنوان مثال، در اوایل سال 2023، مایکروسافت الگوریتمی را معرفی کرد که می تواند صدای انسان را بر اساس یک مثال صوتی که تنها سه ثانیه طول می کشد، بازتولید کند! این مدل همچنین با چندین زبان کار می کند، بنابراین می توانید حتی صحبت کردن خود را به یک زبان خارجی بشنوید. همه اینها امیدوارکننده به نظر می رسد، اما تا کنون فقط در مرحله تحقیق است. اما پلتفرم ElevenLabs به کاربران امکان میدهد بدون هیچ تلاشی دیپفیکهای صوتی بسازند: فقط یک ضبط صوتی از صدا و کلماتی که باید گفته شود آپلود کنید، و تمام. البته، به محض اینکه این خبر منتشر شد، مردم شروع به بازی با این فناوری به انواع مختلف کردند.
نبرد هرمیون و بانکی بیش از حد قابل اعتماد
طبق قانون گادوین، اما واتسون مجبور به خواندن “Mein Kampf” شد و کاربر دیگری از فناوری ElevenLabs برای “هک” حساب بانکی خود استفاده کرد. وحشتناک به نظر می رسد؟ این برای ما نیز صدق می کند – به خصوص وقتی داستان های ترسناک رایج در مورد کلاهبردارانی را که نمونه هایی از صداها را از طریق تلفن جمع آوری می کنند، با گفتن «بله» یا «تأیید» از مردم در حالی که وانمود می کنند که یک بانک، آژانس دولتی یا خدمات نظرسنجی هستند را به این ترکیب اضافه کنید. و سپس با استفاده از مجوز صوتی پول را سرقت کنید.
ترجمه:
پیشگامان تجارت امن ایرانیان