خطوات توليد الصور بالذكاء الاصطناعي تتم عادة بهذا التسلسل:
إدخال الوصف (Prompt)
تكتب وصفًا للصورة (مثلاً: “قطة ترتدي نظارة بأسلوب كرتوني”).
فهم النص
باستخدام معالجة اللغة الطبيعية يتم تحليل المعاني والتفاصيل (أشياء، ألوان، أسلوب…).
تحويل النص إلى تمثيل رقمي
الكلمات تتحول إلى أرقام (Embeddings) يفهمها النموذج.
الربط بين النص والصورة
نموذج مثل DALL·E يربط الوصف بالعناصر البصرية التي تعلمها.
توليد الصورة من الضوضاء
باستخدام نماذج الانتشار يبدأ النموذج بصورة عشوائية (ضوضاء).
التحسين التدريجي
يتم تعديل الصورة خطوة بخطوة حتى تصبح مطابقة للوصف.
إخراج الصورة النهائية
تظهر صورة جديدة تمامًا مبنية على النص.
الخلاصة:
النموذج يفهم النص → يحوله لأرقام → يولد صورة تدريجيًا حتى تطابق الوصف.