مايكروسوفت فاسا-1 : أداة تحول صورة وملف صوت لوجه يتكلم

أعلنت مايكروسوفت عن أداة جديدة اسمها فاسا-1 (VASA-1) تقوم بتحويل صورة وجه مرفق بملف صوتي إلى وجه ناطق بمحتوى الملف الصوتي.

تنتج الأداة حركة شفاه توحي أن الوجه ينطق الكلمات التي نسمعها فعلاً، وإضافة إلى ذلك يهتم النموذج بتموضع الرأس وحركته ولا تبقيه ثابتاً مما يعطي انطباعاً أكبر بواقعية المشهد. كما يمكن التحكم بالأداة بإعطائها بعض الإشارات لكي يقوم الوجه بمحاكاتها، مثل اتجاه نظرة العين وتموضع الرأس و المشاعر التي يُظهرها.

تدعم الأداة إنشاء مقاطع فيديو بحجم 512 × 512 بمعدل يصل إلى 40 إطاراً في الثانية. ورغم توفر أدوات مشابهه بحثية وبعضها تجاري تقوم بنفس الأمر، لكن أداة مايكروسوفت هذه تتمتع بسرعة كبيرة؛ إذ يتم تحويل الصورة لوجه ناطق فورياً ومباشرة ويمكن أن تعمل على كمبيوتر شخصي مع كرت شاشة RTX 4090، أي أن النموذج ليس ضخماً كما هو حال نماذج الذكاء الاصطناعي التي انتشرت في الفترة الأخيرة.

قالت مايكروسوفت أنها لن تنشر تفاصيل عن عمل هذه الأداة وكيف حققوا ذلك، كما أنهم لن يجعلوها متاحة للاستخدام العام قريباً لأن ذلك سيزيد من عمليات التزييف العميق. واكتفو بنشر فيديو يبين كيف تعمل الأداة.

مايكروسوفت فاسا-1 : أداة تحول صورة وملف صوت لوجه يتكلم

مقالات مرتبطة

بعد توليد الفيديو OpenAI تعلن عن تقنيتها لاستنساخ الأصوات

كوبايلوت: مساعد الذكاء الاصطناعي من مايكروسوفت

كوبايلوت بلس: عصر جديد من كمبيوترات ويندوز

مايكروسوفت تشتري طاقة مفاعل نووي لتغذية ذكائها الاصطناعي

مايكروسوفت توقف خدماتها عن وزارة الدفاع الإسرائيلية بعد اكتشاف استخدامات تنتهك شروطها الأخلاقية

فيسبوك تنافس OpenAI بإطلاقها نموذج ذكاء اصطناعي يفهم اللغة الطبيعية

Gato: نموذج ذكي جديد من ديب مايند ينجز 600 مهمة

دالي 2: فنان الذكاء الاصطناعي الذي يحول ما نكتبه إلى رسومات

الاستماع الاجتماعي وأهميته للشركات الصغيرة والكبيرة