كيفية تخصيص إنشاء النص في المحولات

Kyfyt Tkhsys Ansha Alns Fy Almhwlat



في التعلم العميق، يشير إنشاء النص إلى عملية تخصيص النص تلقائيًا باللغة الطبيعية بمساعدة الشبكات العصبية الاصطناعية (ANN) . علاوة على ذلك، يتم استخدام نماذج لغوية مختلفة لهذا الغرض المحدد والتي يتم تدريبها مسبقًا على مجموعات بيانات كبيرة للتنبؤ بالكلمة القادمة في تسلسل اعتمادًا على الكلمة السابقة. بالإضافة إلى ذلك، يمكن استخدام النص المخصص لتطبيقات متعددة بما في ذلك ترجمة اللغة وإنشاء المحتوى وروبوتات الدردشة وغيرها الكثير.

في هذه المدونة، سنغطي المحتوى المقدم أدناه:

كيفية تخصيص إنشاء النص عن طريق تحميل النموذج بوظيفة 'خط الأنابيب' من المحولات؟

ال ' خط انابيب تُستخدم الوظيفة لتنزيل نموذج الذكاء الاصطناعي المُدرب مسبقًا تلقائيًا وفقًا لمتطلبات المستخدم. لاستخدام هذه الوظيفة بالذات، يحتاج المستخدمون إلى تثبيت ' محولات 'الحزم. تتيح هذه الحزمة إمكانية الوصول إلى أحدث النماذج المستندة إلى المحولات والتي يمكنها إجراء تحليل المشاعر بالإضافة إلى العديد من النماذج الأخرى معالجة اللغة الطبيعية (NLP) مهام.







للتحقق من العرض العملي للسيناريو الموصوف أعلاه، انتقل إلى الخطوات المذكورة أدناه!



الخطوة 1: تثبيت حزم 'المحولات'.

في البداية، قم بتنفيذ الأمر '! نقطة' أمر تثبيت حزم المحولات:



! نقطة تثبيت المحولات

كما ترون، تم تثبيت الحزمة المحددة بنجاح:





الخطوة 2: استيراد النموذج القائم على المحولات

بعد ذلك، قم باستيراد النموذج المعتمد على المحول المطلوب. للقيام بذلك، قم أولاً باستيراد ' خط انابيب 'وظيفة من' محولات '. بعد ذلك، استخدم الوظيفة المستوردة وقم بتمرير ' توليد النص 'كوسيطة لها مع اسم النموذج المطلوب' gpt2 '. بعد ذلك، قم بتمريرها إلى ' يولد ' عامل:



من محولات يستورد خط انابيب

يولد = خط انابيب ( 'توليد النص' , نموذج = 'جي بي تي 2' )

الخطوة 3: إنشاء نص مخصص

الآن، قم بتمرير النص المطلوب كوسيطة إلى ' يولد '. كما هو مبين أدناه:

يولد ( 'باستخدام نموذج gpt2 لتوليد النص في المحولات' )

وفقًا للمخرجات المقدمة، تم تنزيل ' gpt3 'تم إنشاء نص النموذج بنجاح:

يمكنك أيضًا استخدام الوسائط الأخرى، مثل:

اِسْتَدْعَى = 'باستخدام نموذج gpt2 لتوليد النص في المحولات'

مطبعة ( الجين ( اِسْتَدْعَى , num_return_sequences = 5 , الحد الاقصى للطول = عشرين ) )

هنا:

  • ' اِسْتَدْعَى 'يتم استخدامه كوسيطة تحمل المدخلات.
  • ' num_return_sequence يتم استخدام الوسيطة لإنشاء عدد تسلسلات النص المقدم.
  • ' الحد الاقصى للطول يتم استخدام الوسيطة لتحديد طول النص الذي تم إنشاؤه. وفي حالتنا يقتصر الأمر على ' 30 'الرموز (الكلمات أو علامات الترقيم):

ملحوظة: سيكون النص المخصص بمثابة استمرار للموجه المحدد الذي يعتمد على بيانات التدريب الخاصة بالنموذج.

كيفية استخدام نموذج قائم على المحولات لإنشاء نص في PyTorch؟

يمكن للمستخدمين أيضًا تخصيص النص في ' باي تورش ' وهو ' شعلة 'إطار التعلم الآلي القائم على. يتم استخدامه لتطبيقات مختلفة، مثل البرمجة اللغوية العصبية ورؤية الكمبيوتر. لاستخدام النموذج القائم على المحول لتخصيص النص في PyTorch، قم أولاً باستيراد ' GPT2Tokenizer ' و ' نموذج GPT2 وظائف 'من' محولات ':

من محولات يستورد GPT2Tokenizer , نموذج GPT2

ثم استخدم ' GPT2Tokenizer ' رمز مميز وفقًا لنموذجنا المُدرب مسبقًا والمسمى ' gpt2 ':

رمز مميز = GPT2Tokenizer. from_pretrained ( 'جي بي تي 2' )

بعد ذلك، إنشاء مثيل للأوزان من نموذج مُدرب مسبقًا:

نموذج = نموذج GPT2. from_pretrained ( 'جي بي تي 2' )

التالي أعلن ' gen_text 'المتغير الذي يحتوي على النص الذي نريد تخصيصه:

gen_text = 'باستخدام نموذج gpt2 لتوليد النص في المحولات'

الآن قم بتمرير ' gen_text ' و ' return_tensors='pt' 'كوسيطة من شأنها إنشاء النص في PyTorch وتخزين القيمة التي تم إنشاؤها في' encoded_input ' عامل:

encoded_input = رمز مميز ( gen_text , return_tensors = 'نقطة' )

وأخيراً قم بتمرير ' encoded_input 'المتغير الذي يحمل النص المخصص إلى' نموذج 'كمعلمة واحصل على الإخراج الناتج باستخدام' الحد الاقصى للطول 'الحجة التي تم تعيينها على' عشرين 'مما يشير إلى أن النص الذي تم إنشاؤه سيقتصر على الرموز المميزة المقدمة،' num_return_sequences 'التي تم ضبطها على' 5 'يُظهر أن النص الذي تم إنشاؤه سيعتمد على 5 تسلسلات نصية:

انتاج = نموذج ( **encoded_input )

مولد كهرباء ( gen_text , الحد الاقصى للطول = عشرين , num_return_sequences = 5 )

انتاج |

كيفية استخدام نموذج قائم على المحولات لإنشاء نص في TensorFlow؟

لتوليد النص في المحولات، ' TensorFlow يتم استخدام أطر التعلم الآلي القائمة أيضًا. للقيام بذلك، قم أولاً باستيراد الوظائف المطلوبة، مثل ' GPT2Tokenizer ' و ' نموذج TFGPT2 ' من ' محولات '. باقي الكود هو نفس ما ورد أعلاه، فقط نستخدم ' نموذج TFGPT2 وظيفة 'بدلاً من' نموذج GPT2 ' وظيفة. على النحو التالي:

من محولات يستورد GPT2Tokenizer , نموذج TFGPT2

رمز مميز = GPT2Tokenizer. from_pretrained ( 'جي بي تي 2' )

نموذج = نموذج TFGPT2. from_pretrained ( 'جي بي تي 2' )

نص = 'باستخدام نموذج gpt2 لتوليد النص في المحولات'

encoded_input = رمز مميز ( نص , return_tensors = 'تف' )

انتاج = نموذج ( encoded_input )

مولد كهرباء ( gen_text , الحد الاقصى للطول = عشرين , num_return_sequences = 5 )

كما ترون، تم إنشاء النص المخصص بنجاح:

هذا كل شيء! لقد أوضحنا تخصيص إنشاء النص في المحولات.

خاتمة

لتخصيص إنشاء النص في المحولات، هناك طرق مختلفة مثل تحميل النموذج بوظيفة خط الأنابيب، باستخدام النموذج المعتمد على المحول في ' باي تورش ' و ' TensorFlow 'والتي تعتمد على أطر التعلم الآلي. في هذا الدليل، قدمنا ​​معلومات موجزة إلى جانب عرض عملي لتخصيص إنشاء النص في المحولات.