أعلنت مايكروسوفت عن أداة جديدة اسمها فاسا-1 (VASA-1) تقوم بتحويل صورة وجه مرفق بملف صوتي إلى وجه ناطق بمحتوى الملف الصوتي.
تنتج الأداة حركة شفاه توحي أن الوجه ينطق الكلمات التي نسمعها فعلاً، وإضافة إلى ذلك يهتم النموذج بتموضع الرأس وحركته ولا تبقيه ثابتاً مما يعطي انطباعاً أكبر بواقعية المشهد. كما يمكن التحكم بالأداة بإعطائها بعض الإشارات لكي يقوم الوجه بمحاكاتها، مثل اتجاه نظرة العين وتموضع الرأس و المشاعر التي يُظهرها.
تدعم الأداة إنشاء مقاطع فيديو بحجم 512 × 512 بمعدل يصل إلى 40 إطاراً في الثانية. ورغم توفر أدوات مشابهه بحثية وبعضها تجاري تقوم بنفس الأمر، لكن أداة مايكروسوفت هذه تتمتع بسرعة كبيرة؛ إذ يتم تحويل الصورة لوجه ناطق فورياً ومباشرة ويمكن أن تعمل على كمبيوتر شخصي مع كرت شاشة RTX 4090، أي أن النموذج ليس ضخماً كما هو حال نماذج الذكاء الاصطناعي التي انتشرت في الفترة الأخيرة.
قالت مايكروسوفت أنها لن تنشر تفاصيل عن عمل هذه الأداة وكيف حققوا ذلك، كما أنهم لن يجعلوها متاحة للاستخدام العام قريباً لأن ذلك سيزيد من عمليات التزييف العميق. واكتفو بنشر فيديو يبين كيف تعمل الأداة.