A high quality cinematic digital illustration of a

كتابة الأوامر (Prompts) لتوليد الصور الثابتة تختلف جذرياً وبشكل كبير عن توجيه الذكاء الاصطناعي لصناعة وإنشاء مشهد فيديو متحرك. ففي العادة، عند توليد صورة، أنت تلعب دور مصور فوتوغرافي يختار زاوية محددة ولحظة مجمدة في الزمن. أما في مجال الفيديو، فأنت فعلياً تتحول إلى مخرج سينمائي متكامل. ولذلك، يجب عليك أن تتحكم بدقة في الزمن، واستمرارية الحركة، وتفاعل الضوء مع مختلف العناصر المتحركة داخل المشهد.

وتجدر الإشارة إلى أن النسخة الثالثة من نموذج جوجل الرائد (Google Veo 3) قد تجاوزت تماماً مرحلة التوليد العشوائي لتصبح قادرة على فهم قوانين الفيزياء الفعلية والواقعية. حيث أن الكاميرا أصبحت تتحرك بثبات تام، والانعكاسات على الأسطح المائية تتغير بشكل منطقي تماماً مع أي تغير في زاوية الرؤية، علاوة على ذلك، فإن الشخصيات لم تعد تذوب أو تتشوه ملامحها عند الالتفاف أو الحركة كما كان يحدث في السابق.

مخرج سينمائي يوجه كاميرا افتراضية باستخدام واجهة لتوليد الفيديو بالذكاء الاصطناعي
تحويل النصوص العادية إلى مشاهد سينمائية متكاملة يتطلب هندسة أوامر دقيقة جداً للتحكم الفعال في حركة الكاميرا وعامل الزمن.

لكن، لحسن الحظ أو لسوء الحظ، هذه العضلات البرمجية الهائلة تحتاج دائماً إلى توجيه صارم ومحدد. فإن ترك التفاصيل الحركية لتخمين الخوارزمية سيمنحك في النهاية مشاهد بطيئة أو مجرد لقطات تشبه الصور المتحركة (GIF) بدلاً من اللقطات السينمائية الاحترافية التي تطمح إليها. دعونا من خلال هذا المقال والدليل العملي، نفكك معاً الهيكل السري والمثالي للأوامر التي تضمن لك استخراج أقصى قدرات نموذج Veo 3 في التوليد المرئي وصناعة الفيديو.

ما الذي يميز نموذج Veo 3 عن الأجيال السابقة؟

في العادة، كانت نماذج توليد الفيديو القديمة تعاني بشكل ملحوظ من مشكلة تُعرف باسم “الاستمرارية الزمنية”. فإذا طلبت من الذكاء الاصطناعي رسم شخص يسير في الشارع، كانت ملابسه أو ملامحه تتغير بشكل غريب بين الثانية الأولى والثالثة من المقطع. ولحسن الحظ، تمكن نموذج Veo 3 من حل هذه المعضلة المعقدة باستخدام تقنيات تتبع متقدمة جداً لما يُعرف بالفضاء الكامن (Latent Space).

والآن، أصبح النموذج يفهم العلاقة المكانية بدقة شديدة. فإذا دارت الكاميرا حول سيارة ما، فإن الجانب الآخر من هذه السيارة سيبدو منطقياً ومتناسقاً تماماً مع التصميم العام. علاوة على ذلك، فهو يدعم توليد مقاطع بدقة 4K فعلية وبمعدل إطارات سلس للغاية يصل إلى (60fps)، إلى جانب امتلاكه قدرة استثنائية على فهم النصوص المدمجة داخل المشاهد المتحركة (مثل لوحة أرقام سيارة تتحرك، أو لافتة نيون تومض وتتغير إضاءتها أثناء مرور الكاميرا بجانبها).

الهيكلية الرباعية لكتابة أمر فيديو احترافي

وتجدر الإشارة إلى أن الأمر النصي (Prompt) الخاص بتوليد الفيديو يجب أن يكون تدريجياً ومنظماً. تخيل دائماً أنك تشرح المشهد بالتفصيل لمدير التصوير في موقع تصوير حقيقي. ولذلك، فإن بناء البرومبت المثالي يتطلب منك دمج أربعة عناصر أساسية بالترتيب التالي للحصول على أفضل نتيجة:

[وصف الموضوع والبيئة] +[حركة الموضوع الداخلي] + [حركة الكاميرا] + [نمط الإضاءة والعدسة]

دعونا نأخذ مثالاً سريعاً وبسيطاً لتوضيح الفكرة:

  • الموضوع: سيارة رياضية كلاسيكية حمراء متوقفة أو تسير على طريق جبلي.
  • حركة الموضوع: تسرع بقوة مع تطاير أوراق الشجر خلفها بشكل درامي.
  • حركة الكاميرا: تتبع منخفض من الخلف (Low angle tracking shot).
  • الإضاءة: وقت التصوير في ساعة الغروب، باستخدام عدسة 35mm، وبطابع تصوير سينمائي.

ولضمان عدم نسيان أي من هذه المكونات التقنية الهامة أثناء الكتابة، يفضل الكثير من المحترفين الاستعانة بأي مولّد أوامر بالذكاء الاصطناعي لـ Veo3 والذي يقوم بدوره بجمع أفكارك العشوائية وتنسيقها بشكل احترافي في قالب هندسي جاهز للتنفيذ الفوري.

قاموس حركة الكاميرا (Camera Movements)

في الواقع، إن الفرق الجوهري بين مقطع يوتيوب هاوي ولقطة هوليوودية احترافية يكمن بالأساس في حركة الكاميرا. ولحسن الحظ، فإن نموذج Veo 3 يستجيب بدقة مذهلة للمصطلحات الإخراجية والسينمائية. ولذلك، لا تكتفِ أبداً بكتابة كلمة “تصوير” أو “فيديو” فقط. بل ننصحك دائماً باستخدام هذه الكلمات المفتاحية باللغة الإنجليزية لتوجيه محرك التوليد بفعالية:

Pan & Tilt (المسح والميل)

بإمكانك استخدام أوامر مثل Pan Left / Pan Right لتوجيه الكاميرا للمسح أفقياً يميناً ويساراً وكأنها تقف بثبات على حامل ثلاثي (Tripod)، وهي طريقة ممتازة جداً لاستعراض المناظر الطبيعية والمساحات الواسعة. بينما تُستخدم أوامر مثل Tilt Up / Tilt Down للكشف عن العناصر عمودياً، كأن تبدأ الكاميرا من قدمي شخصية شريرة مثلاً وترتفع ببطء تدريجي نحو وجهها لإضافة طابع من الغموض.

Tracking & Dolly (التتبع والاقتراب)

وتجدر الإشارة إلى أن استخدام مصطلح Tracking shot يعني أن الكاميرا تتحرك بشكل موازٍ لحركة العنصر الأساسي (على سبيل المثال، تتبع بطل يركض بسرعة في ممر طويل). أما مصطلحات مثل Dolly in / Dolly out فتعني تحرك الكاميرا مادياً للاقتراب من وجه البطل أو الابتعاد عنه ببطء، وذلك لزيادة التأثير العاطفي والدرامي للمشهد، مع الحفاظ التام على عمق الميدان وتركيز العدسة.

Drone & FPV (اللقطات الجوية)

وفي العادة، بالنسبة للمشاهد الواسعة والمليئة بالحركة، ننصحك دائماً باستخدام مصطلحات مثل Cinematic drone shot أو FPV drone flying through. حيث أن هذه الأوامر تجبر نموذج Veo 3 بشكل مباشر على توليد حركة انسيابية وسريعة جداً في مساحات ضخمة، مع محاكاة دقيقة لفيزياء الطيران وتأثير الهواء المندفع.

الإضاءة ونوع الفيلم لتعزيز الواقعية

إن الإضاءة المسطحة أو العادية تقتل واقعية الفيديو بشكل كامل وتجعله يبدو مصطنعاً. ولذلك، لتجنب المظهر “البلاستيكي” المعتاد والمنتشر في المقاطع المولدة آلياً، يجب عليك دمج إعدادات إضاءة ديناميكية تتغير بسلاسة مع حركة الكاميرا وحركة الموضوع نفسه داخل المشهد.

ولتحقيق ذلك، أضف مصطلحات مثل Volumetric lighting لتتمكن من رؤية أشعة الضوء وهي تخترق الدخان أو النوافذ بواقعية. وبإمكانك أيضاً استخدام مصطلح Chiaroscuro لخلق تباين شديد ورائع بين النور والظلام في المشاهد الغامضة أو الدرامية. علاوة على ذلك، ولإعطاء ملمس سينمائي خام واحترافي، اطلب من المحرك محاكاة نوع فيلم محدد عبر إضافة عبارة مثل Shot on 35mm film stock, subtle film grain، حيث أن هذا الملمس الحبيبي الخفيف يساعد بشكل كبير في إخفاء أي عيوب تقنية للذكاء الاصطناعي ويخدع العين البشرية تماماً لتبدو اللقطة وكأنها مصورة بكاميرا حقيقية.

تطبيق عملي: تفكيك برومبت (Prompt) سينمائي

والآن، دعونا نضع كل ما تعلمناه سابقاً في أمر واحد دقيق (Prompt) لنرى النتيجة. سنصنع معاً مشهداً سينمائياً لروبوت يتجول في شوارع طوكيو الممطرة. لاحظ بدقة كيف نقوم بوصف البيئة أولاً، ثم نحدد فعل وحركة الروبوت، وصولاً إلى توجيه حركة الكاميرا وضبط الإضاءة.

A hyper-realistic cinematic shot of a damaged android walking heavily through a neon-lit Tokyo alleyway in pouring rain.
The android slowly raises its metallic hand to touch a glowing neon sign.
Slow push-in Dolly shot, maintaining sharp focus on the android's face while the background blurs.
Anamorphic lens flares, volumetric neon lighting, rain splashing dynamically on metal, 24fps filmic motion, 8k resolution.
لقطات متتابعة توضح حركة الكاميرا وتأثيرات الإضاءة في مشهد فيديو لروبوت في طوكيو تم توليده بالذكاء الاصطناعي
إن الأوامر المدروسة تضمن لك تفاعل الضوء مع الأسطح المبللة بشكل منطقي وواقعي جداً أثناء تحرك الكاميرا داخل المشهد.

وتجدر الإشارة إلى أن كتابة هذا البرومبت بهذا التفصيل تمنع الخوارزمية تماماً من الارتباك أو التشتت. فكما تلاحظ، لقد حددنا لها بوضوح أن الموضوع الأساسي هنا هو وجه الروبوت (وذلك تجنباً لتحول تركيز العدسة إلى الشارع أو الخلفية)، وأن الحركة يجب أن تكون بطيئة ومقتربة (Slow push-in)، كما حددنا بدقة طبيعة الضوء الذي سينعكس على معدن الروبوت المتحرك لتعزيز الواقعية.

أخطاء شائعة تدمر استمرارية الفيديو

في العادة، تتطلب هندسة أوامر الفيديو وعياً جيداً بقوانين الفيزياء والمنطق. ولذلك، جمعنا لكم فيما يلي أكثر الأخطاء الشائعة التي يرتكبها المبتدئون والتي تؤدي للأسف إلى توليد مشاهد مشوهة أو غير منطقية:

  • تضارب الحركات: كأن تقوم بطلب دوران الكاميرا بالكامل حول الشخصية (Orbit) وفي نفس الوقت تطلب تحرك الشخصية بسرعة في خط مستقيم للأمام. فهذا التناقض يرهق محرك التوليد الذكي ويسبب ظهور طمس المعالم (Motion Blur) العشوائي والمزعج في اللقطة.
  • الحشو الساكن: ويُقصد به كتابة تفاصيل معقدة جداً ومبالغ فيها للملابس أو النقوش الموجودة في الخلفية. ففي عالم توليد الفيديو، هذه التفاصيل المفرطة يصعب على النموذج الحفاظ عليها متطابقة وثابتة في كل إطار زمني (Frame)، مما يسبب ظهور وميض مزعج (Flickering) في الصورة. ولذلك، ننصحك دائماً بالتركيز على الحركة والتكوين بدلاً من المبالغة في الزخرفة والتفاصيل الدقيقة.
  • تجاهل سرعة الحركة: إذا لم تحدد سرعة المشهد بوضوح، فقد يقوم النموذج بملء الفراغ وتسريع الحركة بشكل كوميدي وغير واقعي. ولحسن الحظ، بإمكانك تجنب ذلك عبر استخدام كلمات مفتاحية واضحة مثل slow-motion أو real-time pace أو time-lapse لضبط إيقاع الزمن بدقة داخل الفيديو.

الأسئلة الشائعة حول Google Veo 3

كيف يمكنني تجربة Google Veo 3 لصناعة الفيديو؟

تقوم جوجل بدمج قدرات نموذج Veo تدريجياً عبر منصة VideoFX المتاحة ضمن مختبرات AI Test Kitchen، علاوة على ذلك، يتم توفيره كأداة قوية للمطورين وصناع المحتوى ضمن اشتراكات الخدمة المدفوعة Gemini Advanced لتمكينهم من توليد المقاطع وتعديلها نصياً بكل سهولة.

ما هو أقصى طول لمقطع الفيديو المولد؟

في العادة، ومع الأجيال الحديثة من النماذج، يمكنك توليد لقطات خام عالية الدقة تتراوح مدتها من 5 إلى 10 ثوانٍ للقطة الواحدة المستمرة. وبالطبع يمكن دمج هذه اللقطات لاحقاً في برامج المونتاج التقليدية. وتجدر الإشارة إلى أن بعض الواجهات تتيح خيار “تمديد الفيديو” (Extend Video) للحصول على أوقات ومقاطع أطول مع الحفاظ التام على نفس سياق المشهد.

كيف أمنع تشوه الوجوه عند تحرك الشخصية في الفيديو؟

إن السر هنا يكمن في طلب زوايا وحركة كاميرا لا تدور أو تتغير بشكل مفاجئ. ولذلك، استخدم حركة كاميرا بطيئة ومدروسة (مثل Slow Dolly in)، وتجنب الحركات السريعة والعنيفة (مثل Whip Pan). كما يُنصح دائماً بإضافة عبارة مثل “Highly detailed facial structure, temporally consistent features” في البرومبت لإجبار النموذج الذكي على تخصيص موارد معالجة أكبر للحفاظ على ملامح وجه الشخصية.

هل هناك فرق بين أوامر Veo 3 وأوامر Sora من OpenAI؟

في الواقع، الهيكلية الأساسية لكتابة الأوامر متشابهة جداً بين الاثنين، فكلاهما يعتمد بشكل أساسي على وصف الحركة وتوجيه الكاميرا. إلا أن نموذج Veo 3 يتفوق أحياناً وبشكل ملحوظ في فهم الأوامر المتعلقة بالتصوير السينمائي الدقيق وضبط الإضاءة التلقائي ليتناسب مع قواعد التصوير الفوتوغرافي الواقعي دون الحاجة إلى تدخلات أو أوامر نصية طويلة جداً ومعقدة.

التعليقات معطلة