تُعد شرائح المعالجة أساس البنية التحتية للذكاء الاصطناعي التوليدي، حيث تختلف متطلبات هذه النماذج جذرياً عن الحوسبة التقليدية؛ فبينما تعمل وحدات المعالجة المركزية (CPUs) بأسلوب تسلسلي، تتطلب نماذج الذكاء الاصطناعي معالجة كميات ضخمة من البيانات بشكل متوازٍ.
وفي هذا السياق، برزت وحدات المعالجة الرسومية (GPUs) من شركة إنفيديا كحل ريادي أثبت كفاءته، قبل أن تدخل جوجل المنافسة بابتكارها المخصص والمتمثل في وحدات المعالجة التنسور (TPUs). ويكمن الجوهر الحقيقي للمنافسة بينهما في التصميم والأداء؛ إذ إن الـ GPU صُممت في الأصل لمعالجة الرسوميات ثلاثية الأبعاد وتشغيل الألعاب، لكن بنيتها المرنة القادرة على تنفيذ ملايين العمليات الحسابية المتوازية جعلتها الخيار الأول للباحثين والمطورين، لكونها "أداة عامة" تخدم طيفاً واسعاً من التطبيقات بدءاً من المحاكاة وصولاً إلى أعقد الشبكات العصبية.
و تظهر الفروقات الجوهرية في كيفية تعامل كل شريحة مع البيانات والذاكرة. تعاني وحدات الـ GPU، رغم قوتها الهائلة، من تحدٍ تقني يُعرف بـ "عنق زجاجة فون نيومان"، حيث تضطر الأنوية لقراءة البيانات من الذاكرة ومعالجتها ثم إعادة كتابتها، مما يستهلك وقتاً وطاقة كبيرين. بينما صممت جوجل وحدات الـ TPU كدوائر متكاملة مخصصة (ASIC) لتجاوز هذه المعضلة تحديداً، معتمدة على بنية "المصفوفات الانقباضية" (Systolic Arrays). تسمح هذه البنية بتدفق البيانات والنتائج الوسيطة مباشرة بين الوحدات الحسابية المتجاورة دون الحاجة للعودة المتكررة للذاكرة الرئيسية، مما يمنح الـ TPU سرعة معالجة فائقة وكفاءة كبيرة في استهلاك الطاقة لكل واط، خاصة في عمليات ضرب المصفوفات التي تشكل قلب خوارزميات التعلم العميق.
ينعكس هذا التباين في التصميم بشكل مباشر على الدقة والمرونة التشغيلية؛ فبينما تتفوق الـ GPU في دقة الحسابات العالية (مثل FP32 وFP64) وتتعامل بمرونة مع مختلف أنواع البيانات والخوارزميات المتغيرة، تضحي الـ TPU بجزء من الدقة لصالح السرعة والكفاءة، معتمدة غالباً على تنسيق "bfloat16" الذي يقلل حجم البيانات لتسريع الحسابات. هذه الخصائص تجعل الـ TPU، رغم كفاءتها، أقل مرونة وأكثر عرضة لتدهور الأداء في حال حدوث تغييرات جوهرية في تصميم نماذج الذكاء الاصطناعي تتطلب عمليات خارج نطاق ضرب المصفوفات القياسي، إضافة إلى ارتباطها الوثيق بإطار عمل TensorFlow وصعوبة الحصول عليها كأجهزة شخصية لكونها محصورة في بيئة جوجل السحابية.
وهكذا يتحدد الخيار الأمثل وفقاً لطبيعة المهمة والمرحلة؛ حيث تظل الـ GPU الخيار الأكثر تفضيلاً لمراحل البحث، التطوير، وتدريب النماذج المعقدة التي تتطلب مرونة برمجية وقوة حسابية شاملة، بفضل توفرها الواسع ودعمها البرمجي الكبير. في المقابل، تلمع قدرات الـ TPU في مراحل التشغيل الفعلي (Inference) حيث تكون الحسابات معروفة مسبقاً فتعطي كفاءة وسرعة أكبر.
وباختصار، تمثل الـ GPU المرونة والتعددية التي تتكيف مع المستقبل المجهول لتصميم النماذج، بينما تمثل الـ TPU التخصص والسرعة القصوى في أداء المهام المحددة حالياً.