يقوم الذكاء الاصطناعي التوليدي بإنشاء محتوى جديد بشكل آلي بناءاً على مجموعة متنوعة من المدخلات، وقد يكون هذا المحتوى الناتج والمدخلات اللازمة لإنشائه بصيغة نص أو صورة أو فيديو أو نماذج ثلاثية الأبعاد أو غير ذلك.
جعل ChatGPT الذكاء الاصطناعي التوليدي معروفاً للجميع وهو من النماذج التي تنتج محتوى نصي بناءاً على مجموعة أوامر هي نصوص أيضاً؛ فيمكن أن يجيب عن أي سؤال أو يلخص أي مقال. وتطبيق ميدجورني من أشهر التطبيقات التي تقوم بتوليد صور بناءاً على أوامر نصية من المستخدم. وهناك الكثير من النماذج المختلفة للذكاء الاصطناعي التوليدي والتي يمكن أن تصنف حسب الوظيفة التي تقوم بها أو طريقة العمل والتقنيات التي تستخدمها؛ لكن التصنيف الأوضح هو الذي يعتمد على المحتوى الذي تولده. وهنا نميز أربع أنواع أكثر شيوعا للذكاء الاصطناعي التوليدي:
1- توليد نصوص
من أشهر أمثلة هذا النوع هي نماذج اللغة مثل ChatGPT و بارد من غوغل والتي تم تدريبها على كميات ضخمة من البيانات النصية لتقوم بعدها بتوليد نصوص للإجابة عن الأسئلة أو تلخيص نصوص أو كتابة مقالة عن موضوع معين أو حتى كتابة قصيدة شعرية.
لكن لايقتصر هذا النوع على نماذج اللغة بل يمكن أن يأخذ كدخل له صوت ليولد نص مثل التطبيقات التي تحول الصوت إلى كلام؛ أو تلك التي تقوم بتوليد وصف نصي لصورة أو فيديو.
2- توليد صور
تولد هذه النماذج صورة من خلال وصف نصي لها أو من خلال إجراء تعديلات على صورة معينة وقد تعطي كنتيجة صور ثنائية أو ثلاثية الأبعاد؛ توفر هذه النماذج الكثير من الوقت للمصميين لإنشاء صور احترافية ابداعية بسرعة وسهولة. ميدجورني و دالي2 و3 من OpenAI و إيماجن من غوغل فايرفلاي من أدوبي أمثلة من كم واسع من التطبيقات لهذا النوع.
3- توليد فيديو
يشمل هذا النوع مجموعة النماذج التي تقوم بتوليد فيديو من وصف نصي له؛ وتلك التي تقوم بتوليد فيديو من صورة بعد تحديد الأسلوب الذي نريد فيه تحريك الصورة؛ أو تلك التي تقوم بتحويل فيديو إلى فيديو آخر مثل التطبيقات التي تقوم يتحويل فيديو مصور بكاميرا هاتف إلى مشهد سينمائي أو تلك التي تقوم بتغيير حركة شفاه شخص ليبدو وكأنه يتحدث بلغة أخرى؛ وتعد شركة إنفيديا و Runway من أكثر الشركات اهتماماً في هذا المجال.
4- توليد صوت
تحويل النص إلى صوت من أشهر تطبيقات هذا النوع إذ يمكن تحويل النص لصوت منطوق يصعب تمييزه عن أصوات البشر. كما تضم النماذج التي تحول صوت شخص إلى صوت لشخص آخر أو تلك التي تقوم بتوليد موسيقى بناءاً على أوامر نصية مثل نموذج MusicML من غوغل.