ترجمه صوتی هوش مصنوعی «متا» عرضه شد
غول فناوری، متا، به طور رسمی سلاح جدید خود در جنگ ترجمه هوش مصنوعی را رونمایی کرد: یک قابلیت ترجمه صوتی زنده که نه تنها صدای شما را به زبان دیگری ترجمه میکند، بلکه حرکات لبهایتان را نیز همگام میسازد! این ویژگی انقلابی که اولین بار توسط مارک زاکربرگ معرفی شد، اکنون در دسترس عموم قرار گرفته تا مرزهای ارتباطات را درهم بشکند.

ده:
شرکت متا (Meta) به صورت رسمی اعلام کرد که قابلیت پیشرفته ترجمه صوتی زنده خود را در سطح جهانی فعال کرده است. این ابزار مبتنی بر هوش مصنوعی مولد، که با نام «Reels» شناخته میشود، توانایی ترجمه صدای کاربران را دارد و به صورت اختیاری، قابلیت همگامسازی حرکات لب را نیز ارائه میدهد.
این فناوری که برای اولین بار در رویداد «Meta Connect 2024» توسط «مارک زاکربرگ» به نمایش درآمد، در حال حاضر تنها برای ترجمه دوطرفه بین زبانهای انگلیسی و اسپانیایی در دسترس است. با این حال، متا تأکید کرده که در آینده نزدیک، زبانهای بیشتری به این سرویس افزوده خواهند شد.
در ابتدای راهاندازی، استفاده از این قابلیت منحصر به Creatorها یا صفحات فیسبوک با بیش از ۱۰۰۰ دنبالکننده بود. اما در حال حاضر، هر کاربری که دارای یک حساب عمومی در اینستاگرام باشد، میتواند از این ابزار نوآورانه بهرهمند شود.
مکانیزم عملکرد این فناوری به این صورت است که هوش مصنوعی بر اساس صدای کاربر آموزش دیده و یک track صوتی ترجمهشده تولید میکند که کاملاً با لحن و آهنگ صدای اصلی هماهنگ است. سپس، با فعال کردن گزینه همگامسازی لب، حرکات دهان کاربر به شکلی باورنکردنی و دقیق با گفتار ترجمهشده تطبیق داده میشود. دمویی که این شرکت سال گذشته به نمایش گذاشت، دقت فوقالعاده این فناوری را به خوبی نشان داد.
برای استفاده از این ویژگی، کاربران قبل از انتشار یک «Reel» در اینستاگرام، باید گزینه «ترجمه صدای خود با هوش مصنوعی متا» را انتخاب کنند. در این مرحله، امکان افزودن همگامسازی لب نیز وجود دارد. یک قابلیت کلیدی دیگر، امکان پیشنمایش و بررسی نسخه ترجمهشده قبل از انتشار نهایی است. همچنین، برای شفافیت بیشتر، بینندگان هر «Reel» که با این روش ترجمه شده باشد، پنجرهای مشاهده میکنند که اطلاع میدهد محتوای حاضر با هوش مصنوعی ترجمه شده است.
طبق اعلام متا، این ابزار بهترین عملکرد خود را در ویدئوهای رو در رو (Talking Head) نشان میدهد. این شرکت به کاربران توصیه میکند از پوشاندن دهان خود یا استفاده از موسیقی پسزمینه با volume بالا خودداری کنند تا نتیجه مطلوبتری بگیرند.
این ویژگی از حداکثر دو گوینده پشتیبانی میکند، اما برای دستیابی به بهترین نتیجه، باید از صحبت همزمان و overlap کردن گفتار پرهیز کرد.
متا این ابزار را راهکاری برای Creatorها معرفی کرده تا بتوانند مخاطبان خود را فراتر از مرزهای زبانی گسترش دهند. به همین دلیل، یک ردیاب عملکرد (Performance Tracker) بر اساس زبان نیز در نظر گرفته شده است تا کاربران بتوانند میزان engagement و عملکرد محتوای خود را در هر زبان به صورت جداگانه تحلیل کنند.
این شرکت، اولین بازیگر در این عرصه نیست. یوتیوب سال گذشته ویژگی مشابهی را راهاندازی کرد. اپل نیز با معرفی ابزار ترجمه زنده در برنامههای پیامرسان، تلفن و فیستایم خود در iOS 16، وارد این رقابت شده است.