ما هو Dalle-mini وكيف يعمل؟

Ma Hw Dalle Mini Wkyf Y Ml



Dalle-mini هو نموذج تعليمي عميق يمكنه إنشاء صور عالية الجودة من نص إدخال المستخدم. يعتمد على نموذج DALL-E ، الذي أصدرته شركة OpenAI في يناير 2021. DALL-E تعني ' اللغة المنفصلة والتعبير الكامن 'عبارة عن شبكة عصبية قائمة على المحولات يمكنها تشفير النصوص والصور في مساحة كامنة مشتركة ، ثم إعادة فك تشفيرها إلى أي من الطريقتين.

تشرح هذه المقالة المحتوى التالي:







ما هي Dalle-mini؟

أعطها مصغرة هو إصدار أصغر وأسرع من DALL-E ، تم إنشاؤه بواسطة EleutherAI ، مجموعة بحثية مفتوحة المصدر. تستخدم Dalle-mini 6 مليارات معلمة فقط ، مقارنة بـ 12 مليارًا من DALL-E ، ويمكن تشغيلها على وحدة معالجة رسومات واحدة. يستخدم Dalle-mini أيضًا رمزًا مختلفًا ومفردات لإدخال النص ، مما يجعله أكثر توافقًا مع اللغات والمجالات المختلفة:




ملحوظة : يمكن للمستخدمين إنشاء صور مجانية باستخدام Dalle-mini من خلال اتباع وصلة .



ما هو عمل Dalle-mini؟

الفكرة الرئيسية وراء Dalle-mini هي قوة المحولات ، وهي شبكات عصبية. يمكنهم تعلم التبعيات بعيدة المدى والأنماط المعقدة في البيانات المتسلسلة ، مثل النص أو الصور.





تتكون المحولات من جزأين رئيسيين: جهاز تشفير وجهاز فك ترميز. يأخذ الجزء الأول مدخلات (وصف نصي) ويغيرها إلى متجهات مخفية. بعد ذلك ، يأخذها مفكك الشفرة ويولد مخرجات (صورة) ذات صلة بالإدخال.

ما هو الفرق بين Dalle-mini و DALL-E؟

يستخدم Dalle-mini و DALL-E بنية مشتركة لوحدة فك التشفير لكل من النصوص والصور. يمكنهم تشفير وفك كلتا الطريقتين باستخدام نفس الشبكة. هذا يسمح لهم بتعلم مساحة كامنة مشتركة تلتقط العلاقة الدلالية بين النص والصور. بعد ذلك ، تمكنهم من تنفيذ إنشاء متعدد الوسائط ، مثل إنشاء صور من نص أو العكس.



كيف يعمل Dalle-mini؟

لإنشاء صورة من وصف نصي ، يقوم Dalle-mini أولاً بترميز النص باستخدام خوارزمية تشفير زوج البايت (BPE) ، والتي تقسم النص إلى وحدات كلمات فرعية بناءً على تواترها وتواجدها المشترك:


دعونا نتوجه إلى تفاصيل العمل الداخلي لـ Dalle-mini:

العمل الداخلي لـ Dalle-mini

لنفترض أن كلمة ' تلعب يمكن تقسيم 'إلى' جيش التحرير الشعبى الصينى ' و ' يينغ '. ثم يتم تعيين الرموز المميزة إلى معرفات رقمية باستخدام مفردات من 8192 رمزًا مميزًا. يتم إدخال المعرفات في المشفر ، مما ينتج عنه تمثيل كامن بحجم 256 × 64:


ثم يأخذ جهاز فك التشفير التمثيل الكامن وينشئ صورة بحجم 256 × 256 بكسل. يستخدم مفكك التشفير عملية الانحدار التلقائي ، مما يعني أنه يولد كل بكسل واحدًا تلو الآخر ، بشرط أن تكون وحدات البكسل السابقة والتمثيل الكامن.

كيف يتم إنشاء صورة من وصف النص باستخدام Dalle-mini؟

لإنشاء وصف نصي من صورة باستخدام Dalle-mini ، أدخل النص في نافذة المطالبة. على سبيل المثال ، اكتب ' لوحة من الزهور العشوائية 'في موجه الأوامر واضغط على' يجري ' زر:


يُظهر الإخراج أن Dalle-mini قد أنتج صورًا ذات صلة وفقًا لنص الإدخال.

خاتمة

يعد Dalle-mini نموذجًا رائعًا يوضح إمكانات المحولات للتوليد عبر الوسائط. يمكنهم إنشاء صور واقعية ومتنوعة من أوصاف اللغة الطبيعية ، بالإضافة إلى نصوص متماسكة وذات صلة من الصور. يمكنهم أيضًا التعامل مع التراكيب المعقدة ، مثل دمج كائنات أو سمات متعددة في صورة أو نص واحد. لقد شرح هذا المقال Dalle-mini وعمله بالتفصيل.