دعونا نتفق مبدئياً أن تصميم الصور بالذكاء الاصطناعي ليس مجرد كتابة نصوص عشوائية وانتظار الحظ. فالمحترفون في هذا المجال لا يخترعون العجلة من الصفر في كل مرة يفتحون فيها Midjourney أو DALL-E 3. بل وفي العادة، يقومون بمراقبة الأعمال الناجحة، وتفكيكها إلى عناصرها الأساسية، ثم إعادة بناءها بطريقتهم الخاصة. ولذلك، تعتبر الهندسة العكسية للتصاميم هي المهارة الفاصلة بين المبتدئ والمصمم المتمرس.
يجب أن تضع في اعتبارك أن محركات التوليد لا تتذوق الفن كما نفعل نحن، فهي ببساطة تقرأ البكسلات وتترجمها إلى معادلات وأوزان رياضية. وعندما تعجبك لوحة أو تصميم إعلاني ما، فإن التحدي الأكبر يكمن في إيجاد الكلمات الدقيقة التي تصف هذا العمل بلغة الخوارزميات.
علاوة على ذلك، فإن تخمين الأوصاف يستهلك الساعات من وقتك في تجارب ومحاولات غير مجدية. ولكن لحسن الحظ، من خلال فهم كيفية استخراج Prompt من صورة، بإمكانك نقل أسلوب الإضاءة، وزاوية الكاميرا، والتكوين الفني مباشرة إلى تصميمك الخاص. بهذه الطريقة أنت تختصر الطريق نحو الجودة الفائقة وتضمن الحصول على نتائج متسقة في كل مرة.
جدول المحتويات
أداة Image to Prompt مقابل أمر /describe في Midjourney
في العادة، يعتمد الكثيرون على الأوامر المدمجة داخل منصات التوليد. ففي Midjourney، يعتبر أمر /describe الخيار الأول للعديد من المستخدمين لمحاولة فهم مكونات أي صورة، حيث يقدم أربعة خيارات نصية سريعة. لكنه غالباً ما يميل إلى استخدام لغة شعرية أو أسماء فنانين غير معروفين، وهو ما قد لا يخدمك إذا كنت تبحث عن تصميم تجاري مباشر وواضح.
ولذلك، فإن استخدام أداة تحويل الصورة إلى Prompt مستقلة يمنحك نتائج هيكلية وتقنية أكثر دقة. وتجدر الإشارة إلى أن هذه الأدوات تعتمد على نماذج رؤية حاسوبية قوية (Vision Models) مثل CLIP Interrogator. فبدلاً من دمج الوصف في فقرة أدبية غامضة، تقوم الأداة بتفكيك الصورة إلى طبقات واضحة تشمل الموضوع والإضاءة ونوع الكاميرا.
والآن، هذا التفكيك يضع السيطرة الكاملة بين يديك. حيث تستطيع تعديل عنصر واحد فقط (مثل تغيير وقت التصوير من النهار إلى الليل) مع الحفاظ على بقية التكوين البصري للصورة المرجعية كما هو تماماً.
تفكيك الـ Prompt: كيف يقرأ الذكاء الاصطناعي صورتك؟
يجب أن تعلم أن الذكاء الاصطناعي لا يرى الصورة ككتلة واحدة كما نفعل نحن، بل يحللها كطبقات بيانات متراكمة. وفهم هذه الطبقات يسهل عليك قراءة الـ Prompt المستخرج وتعديله ليتناسب مع احتياجاتك. دعونا نستعرض هذه الطبقات معاً:

1. الموضوع الرئيسي (Subject)
الطبقة الأولى هي تحديد الكيان الأساسي في الصورة. هل هو إنسان، مبنى، أم منتج تجاري؟ النماذج المدربة تركز على استخراج حالة الموضوع بدقة شديدة. لذا لا تكتفي بكتابة “رجل”، بل تستخرج تفاصيل أدق مثل: “رجل في الأربعينيات يرتدي معطفاً صوفياً وينظر بحدة نحو الكاميرا”.
2. الأسلوب الفني (Art Style)
هنا يتم تحديد هوية الصورة البصرية. هل نتحدث عن تصوير فوتوغرافي واقعي، رسم زيتي، أم فن رقمي ثلاثي الأبعاد؟ إذا كانت الصورة واقعية، ستبحث الخوارزمية عن مصطلحات توليد شائعة مثل “Cinematic photography” أو “Hyper-realistic”.
3. الإضاءة (Lighting)
الإضاءة تصنع الفارق الفعلي بين التصميم المسطح والاحترافي. الأدوات الجيدة تلتقط مصدر الضوء وتضيفه للـ Prompt. ولذلك ستجد ضمن النص المستخرج مصطلحات دقيقة كإضاءة حجمية (Volumetric lighting)، إضاءة استوديو دافئة، أو إضاءة نيون خلفية.
4. الكاميرا والعدسة (Camera & Lens)
محركات التوليد مثل Midjourney v6 تعشق التفاصيل الفوتوغرافية. عند استخراج Prompt من صورة احترافية، سيكشف لك الذكاء الاصطناعي عن نوع العدسة التي يبدو أن الصورة التقطت بها. فإدراج كلمات مثل “35mm lens” أو “f/1.8” يضمن محاكاة العزل (Bokeh) والعمق الميداني الذي يمنح الصورة طابعها الواقعي بشكل مذهل.
التطبيق العملي: هندسة عكسية لصورة احترافية
لنفترض أنك تتصفح الإنترنت ووجدت صورة سينمائية لسيارة رياضية تندفع تحت المطر، وتريد تنفيذ فكرة مشابهة لتلائم علامة تجارية تعمل عليها. محاولة وصفها بعبارة “سيارة سريعة في المطر ليلاً” ستمنحك في العادة نتائج طفولية بعيدة كل البعد عن الواقعية.
ولكن بعد تمرير الصورة عبر نموذج تحليل الرؤية الحاسوبية، سيقوم النظام باستخراج العناصر التقنية وترتيبها بناءً على الأهمية. سنوضح من خلال هذا المثال النتيجة التي ستظهر لك، والمصممة خصيصاً ليقرأها محرك التوليد:
Cinematic shot of a sleek futuristic sports car speeding through a neon-lit Tokyo street,
heavy rain pouring, water splashing from tires,
dramatic low-angle shot, 35mm lens, f/1.8,
neon reflections on wet asphalt, volumetric lighting,
hyper-detailed, 8k resolution --ar 16:9 --style rawلاحظ المعلمات التقنية المضافة في النهاية. الرمز --ar 16:9 يحدد أبعاد الصورة العريضة لتناسب العرض السينمائي. بينما --style raw يطلب من محرك Midjourney تقليل تدخلاته الجمالية للحصول على نتيجة أكثر حدة وأقرب للتصوير الفوتوغرافي الخام.

بإمكانك دائماً مراجعة هذا النص وتحسينه باستخدام مدقق أوامر الذكاء الاصطناعي لضمان عدم وجود تناقض في الكلمات المفتاحية، أو لحذف التفاصيل التي لا تحتاجها قبل بدء عملية التوليد الفعلية.
كيف أدمج ستايل صورتين في أمر واحد؟
في بعض المشاريع المعقدة، قد تلاحظ أن صورة مرجعية واحدة لا تكفي. فقد تعجبك الإضاءة الحادة والظلال في صورة معينة، بينما يلفتك التكوين البصري والزوايا في صورة أخرى. ومحاولة دمج هذه التفاصيل المتفرقة بكتابة نص عادي غالباً ما تربك محرك التوليد وتنتج عملاً مشوهاً.
السر هنا يكمن في الدمج البصري المباشر. حيث يمكنك الاستعانة بأدوات مخصصة تتيح لك دمج صورتين في أمر ذكاء اصطناعي واحد. فتقوم الأداة بقراءة الصورتين واستخراج وصف هجين متوازن. هذا الوصف يأخذ أفضل العناصر التقنية من كل صورة ويصوغها في Prompt متماسك يمكن لمولدات الصور فهمه وتنفيذه دون تضارب.
هل يمكن تقليد تصميم بذكاء اصطناعي بنسبة 100%؟
الإجابة القصيرة والمباشرة على هذا السؤال هي لا. فخوارزميات الذكاء الاصطناعي مبنية برمجياً على توليد نتائج عشوائية وفريدة في كل محاولة. حتى لو استخدمت الـ Prompt ذاته حرفياً مرتين متتاليتين، قد يواجهك اختلافات في توزيع العناصر أو تدرج الألوان.
ومع ذلك، ولحسن الحظ، تستطيع الوصول إلى نسبة تطابق تفوق 95%. يتم ذلك عن طريق إضافة رقم البذرة (Seed Number) الخاص بالصورة الأصلية إن كان متاحاً لك. كما أن الاستفادة من ميزة أوزان الكلمات (Keyword weights) يعطي أولوية قصوى لعناصر معينة في التصميم على حساب أخرى. ولا ننسى تقنية إضافة روابط الصور كمرجع أساسي (Image Reference) التي تجبر الخوارزمية على الالتزام بالتوزيع الهندسي للمشهد.
يجب أن تضع في اعتبارك أن الهدف من هذه التقنيات ليس الاستنساخ الأعمى. فالمحترفون، سواء كانوا من رواد الرئيسية أو من قراء مقالاتنا في المدونة، يبحثون دائماً عن فهم “كيف” صُنع التصميم لكي يوظفوا هذه المعرفة في ابتكار مشاريع بصرية جديدة تحمل بصمتهم الخاصة.
الأسئلة الشائعة
كيف اعرف الـ Prompt الخاص بالصورة؟
أسرع طريقة لمعرفة الـ Prompt هي رفع الصورة إلى أداة (Image to Prompt) تعتمد على نموذج رؤية حاسوبية قوي لتحليل العناصر والإضاءة. وكبديل، بإمكانك استخدام أمر /describe داخل منصة Discord إذا كنت تستخدم Midjourney للحصول على أربعة اقتراحات نصية جاهزة.
هل يمكن تقليد صورة بنسبة 100% باستخدام الذكاء الاصطناعي؟
لا يمكن الوصول لتطابق 100% بسبب الطبيعة العشوائية لنماذج التوليد (Diffusion Models). لكنك قادر على الوصول لنسبة 95% عبر استخدام رقم البذرة (Seed Number)، واستخدام الصورة الأصلية كمرجع بصري (Image Prompt) مع رفع أوزان الالتزام بها.
هل تدعم أدوات استخراج الـ Prompt اللغة العربية؟
رغم التطور الكبير للغة العربية في الذكاء الاصطناعي، إلا أن محركات توليد الصور (مثل Midjourney و Stable Diffusion) تستجيب بشكل أفضل للغة الإنجليزية التقنية. ولذلك، الأدوات الاحترافية تحلل الصورة وتعطيك الـ Prompt باللغة الإنجليزية لضمان حصولك على أعلى دقة ممكنة عند التوليد.
ما هو CLIP Interrogator وكيف يعمل؟
هو نموذج ذكاء اصطناعي مخصص للهندسة العكسية. يقوم بمقارنة محتوى الصورة بقاعدة بيانات ضخمة من الكلمات والمفاهيم الفنية، ثم يستخرج أدق الكلمات المفتاحية التي لو كُتبت، ستنتج صورة مطابقة قدر الإمكان للصورة التي قمت برفعها.
هل يختلف الـ Prompt المستخرج لـ Midjourney عن DALL-E 3؟
نعم بالتأكيد. فمحرك Midjourney يعتمد على الكلمات المفتاحية القصيرة والمعلمات التقنية (مثل العدسات والأبعاد)، بينما DALL-E 3 يفضل الجمل الوصفية الطويلة التي تحكي قصة المشهد بتسلسل طبيعي. ولذلك قد تحتاج لتعديل هيكل الـ Prompt المستخرج بناءً على الأداة التي ستستخدمها.
