بعد توليد الفيديو OpenAI تعلن عن تقنيتها لاستنساخ الأصوات

بقلم:   تامر كرم           |  March 30, 2024

voice_engine

بعد شهر ونصف من إعلانها عن نموذجها "سورا" لتحويل النص إلى فيديو، نشرت OpenAI عينات من نموذجها الجديد المسمى Voice Engine (محرك الصوت) الذي يقوم بتحويل النص إلى صوت شبيه بأصوات البشر. وتستخدم الشركة أصوات مسبقة يتم قراءة النص بها ولكن الميزة التي تستدعي الاهتمام هي قدرته على تقليد أي صوت آخر وقراءة النص باستخدامه إذا توفر له بضعة ثواني فقط من الصوت الجديد.

يثير هذا النموذج الضجة ثانية حول التزييف الصوتي العميق، وهي تقنية موجودة ومستخدمة منذ زمن، فمنذ أشهر قام أحدهم بتزييف مكالمات تم إجراؤها بصوت الرئيس الأمريكي بايدن. وقبله بسنوات تم تزييف صوت الممثل فال كيلمر في فيلم "توب غن" لأنه فقد القدرة على الكلام. فكما يمكن استخدام هذه التقنية لأهداف سلبية يمكن الاستفادة منها لغرض إيجابي.

قالت الشركة أنها لا تفكر حالياً بإتاحة نموذجها للاستخدام العام واكتفت بمنح بضعة مطورين إمكانية استخدامه واختباره. لا يُعرف السبب الحقيقي لامتناعها عن جعله متاحاً للاستخدام العام فهناك الكثير مثل هذا النموذج تقدمها شركات أخرى، مثل غوغل التي تتيح لأي مستخدم استنساخ صوته ولكنها تمنعه من استنساخ صوت غيره لتجنب التزييف. كما أن شركات أخرى مثل ElevenLabs تقوم بنفس الأمر وتسمح للشخص بالتكلم بصوته بلغات مختلفة.فلماذا لا تبدأ الشركة بشيء مشابه؟

من الواضح أن شركة OpenAI تسعى لإنشاء نماذج ذكاء اصطناعي تتفوق على كل الشركات الناشئة التي تعمل في هذا المجال. فليس من قبيل المصادفة أن تطلق سورا Sora الذي أعقب بأشهر قليلة الشهرة الواسعة التي نالها RunWay Gen2 في توليد الفيديوهات. ثم تعود لتعلن عن منافس ElevenLabs التي ذاع صيتها في الأشهر الأخيرة في استنساخ الأصوات والتكلم بلغات مختلفة.

وهذه أفضل ثلاثة مواقع لتحويل النص العربي إلى صوت: تحويل النص إلى صوت.



مشاركة