كيفية إنشاء التضمين من قائمة الجمل الإنجليزية

Kyfyt Ansha Altdmyn Mn Qaymt Aljml Alanjlyzyt



هل فكرت يومًا عندما نتواصل مع أجهزتنا (أجهزة الكمبيوتر) ونعطيها تعليمات لأداء مهمة معينة لنا مثل إجراء بحث معين أو الترجمة من لغة إلى أخرى ، كيف يفهم الكمبيوتر هذا ويعالج ذلك؟ يتم كل هذا من خلال حقل فرعي الذكاء الاصطناعي لمعالجة اللغة الطبيعية. يفهم الكمبيوتر القيم العددية وتقنية 'تضمين الكلمات' في البرمجة اللغوية العصبية يحول الكلمة والنصوص التي نقدمها كمدخلات إلى أجهزة الكمبيوتر إلى هذا المتجه العددي حتى يتمكن الكمبيوتر من التعرف عليها. تحدث العديد من عمليات البرمجة اللغوية العصبية الأخرى خارج هذا التفاعل بين الإنسان والحاسوب من خلال نماذج اللغة ، لكننا سنغطي كلمة التضمين بالتفصيل في هذا الدليل.

بناء الجملة:

تندرج وظائف مختلفة ضمن Natural Language Processing لتضمين الكلمة في النص. تتناول هذه المقالة وظيفة 'word2vec' لهذا الغرض. لتوضيح الأمر ، تقوم كلمة التضمين بتحويل مدخلات النص لدينا إلى تمثيل متجه حيث أعطت تلك الكلمات التي لها نفس المعاني السياقية نفس التمثيل.

تعد خوارزمية 'word2vec' نموذجًا للشبكة العصبية يتم تدريبه بطريقة تجعله يتعلم تضمين الكلمات من خلال التنبؤ أولاً بسياق الكلمة الذي تظهر فيه. هذا النموذج يأخذ النص كمدخله. ثم ، لكل كلمة في النص ، يتم إنشاء التمثيل المتجه لتلك الكلمة. يعتمد هذا النموذج على فكرة أن الكلمات التي يبدو أنها لها نفس السياق لها نفس المعاني. تكون صيغة 'word2vec' كما يلي:







Word2Vec $ (جمل ، min_count)

تحتوي هذه الخوارزمية على معلمتين هما 'الجمل' و 'الحد الأدنى للعدد'. الجملة هي المتغير حيث يتم تخزين قائمة الجمل أو النص في شكل جمل ويتحدث الحد الأدنى للعدد عن قيمة العد 1 مما يعني أن أي من الكلمات في النص التي ظهرت أقل من واحدة يجب تجاهلها .



مثال 1:

في هذا المثال ، نقوم بإنشاء كلمة embeddings للكلمات الموجودة في قائمة الجمل الإنجليزية. لإنشاء كلمة 'تضمين' ، نحتاج إلى استخدام نموذج 'word2vec'. هذا النموذج عبارة عن حزمة من مكتبة 'جينسيم' في بايثون. نحتاج إلى تثبيت Gensim في مستودعات مكتبة Python الخاصة بنا للعمل مع 'word2vec'.



لتنفيذ هذا المثال ، سنعمل على برنامج التحويل البرمجي Python عبر الإنترنت 'google colab'. لتثبيت gensim ، استخدم الأمر 'pip install gensim'. يبدأ هذا في تنزيل هذه المكتبة بجميع الحزم المرتبطة بها. بمجرد تثبيته ، سنقوم باستيراد حزمة 'word2vector' من gensim.





لتدريب نموذج 'word2vec' هذا ، نحتاج إلى إنشاء مجموعة بيانات تدريبية. لذلك ، نقوم بإنشاء قائمة الجمل التي تحتوي على أربع إلى خمس جمل باللغة الإنجليزية. نحفظ هذه القائمة في متغير 'training_data'.

خطوتنا التالية بعد إنشاء مجموعة بيانات التدريب هي تدريب نموذج 'word2vec' على هذه البيانات. لذلك ، نسمي النموذج. نعطي بيانات التدريب في معلمات الإدخال لهذا النموذج والتي حفظناها في متغير 'المدخلات'. ثم نحدد المعامل الثاني وهو 'الحد الأدنى للعدد'. نحدد قيمته تساوي '1'. يتم حفظ الإخراج من نموذج التدريب هذا في متغير 'النموذج_المدرّب'.



بمجرد أن ننتهي من تدريب النموذج ، يمكننا ببساطة الوصول إلى النموذج بالبادئة 'wv' التي تمثل نموذج متجه للكلمة. يمكننا أيضًا الوصول إلى مفردات الرمز المميز لكلماتنا ويمكننا طباعتها بالطريقة على النحو التالي:

vocabof_tokens = قائمة (model.wv.vocab)

يمثل النموذج النموذج المدرب في حالتنا. الآن ، نصل إلى التمثيل المتجه للكلمة الواحدة في قائمة الجملة التي ، في حالتنا ، هي 'تفاحة'. نقوم بذلك ببساطة عن طريق استدعاء النموذج المدرب. نمرر الكلمة التي نريد طباعة تمثيلها المتجه كـ 'نموذج'. wv ['تفاحة'] 'إلى وسيطة الإدخال. ثم نقوم بطباعة النتائج باستخدام وظيفة 'طباعة'.

من كأمة عارضات ازياء يستورد Word2Vec

بيانات_تدريب = [ [ 'تفاحة' و 'يكون' و 'ال' و 'حلو' و 'تفاحة' و 'ل' و 'word2vec' ] و
[ 'هذا' و 'يكون' و 'ال' و 'ثانية' و 'تفاحة' ] و
[ 'هنا' و 'آخر' و 'تفاحة' ] و
[ 'واحد' و 'حلو' و 'تفاحة' ] و
[ 'و' و 'أكثر' و 'حلو' و 'تفاحة' ] ]

نموذج = Word2Vec ( بيانات_تدريب و min_count = 1 )
مطبعة ( نموذج )
vocabof_tokens = قائمة ( نموذج. wv . index_to_key )
مطبعة ( vocabof_tokens )
مطبعة ( نموذج. wv [ 'تفاحة' ] )

من المخرجات والكود المذكورين سابقًا ، تظهر كلمة تضمين لكلمة 'تفاحة'. في المثال ، أنشأنا أولاً مجموعة بيانات تدريبية. ثم قمنا بتدريب نموذج على ذلك ولخصناه. ثم ، باستخدام النموذج ، حصلنا على وصول إلى المفردات الرمزية للكلمات. بعد ذلك ، عرضنا كلمة تضمين لكلمة 'تفاحة'.

المثال الثاني:

باستخدام مكتبة gensim ، دعنا ننشئ قائمة أخرى من الجمل. تدريب نموذجنا لكل كلمة في الجملة لإنشاء كلمة تضمين باستخدام نموذج 'word2vec'. أولاً ، من حزمة مكتبة gensim ، يتم استيراد نموذج 'word2vec'. بعد ذلك ، نقوم بإنشاء مجموعة بيانات أخرى والتي ستكون القائمة التي تحتوي على الجملتين بداخلها. تحتوي كل جملة في القائمة على أربع كلمات.

الآن ، نحفظ هذه القائمة في متغير 'البيانات'. بعد ذلك ، نسمي نموذج 'word2vec ()' ونغذي البيانات إلى وسيطات هذا النموذج مع قيمة الحد الأدنى للعدد التي تساوي '1'. هذه هي الطريقة التي ندرب بها نموذجنا. الآن ، أصبح قادرًا ويمكن أن يتعلم تضمين كلمة الكلمات الموجودة في الجمل الموجودة في القائمة من خلال التنبؤ بالسياق الذي توجد فيه. لاختبار نتائج نموذجنا ، نقوم ببساطة بتمرير كلمة مثل 'كلب' في بياناتنا إلى النموذج. ثم نقوم بطباعة النتائج باستخدام وظيفة “print ()”.

من كأمة عارضات ازياء يستورد Word2Vec
بيانات = [ [ 'أرنب' و 'لديه' و 'أسنان' ] و [ 'كلب' و 'لديه' و 'آذان' ] ]
نموذج = Word2Vec ( بيانات و min_count = 1 )
مطبعة ( نموذج. wv [ 'كلب' ] )

يمكننا ملاحظة التمثيل المتجه للكلمة التي قمنا بإدخالها إلى النموذج كمدخلات من المقتطف السابق للمخرجات.

خاتمة

يوضح هذا الدليل طريقة إنشاء تضمين الكلمة للكلمات الموجودة في قائمة الجمل الإنجليزية. تعلمنا عن مكتبة 'gensim' في Python التي توفر نموذج 'word2vec' لإنشاء كلمة تضمين. علاوة على ذلك ، تعلمنا عن معلمات الإدخال ، وكيفية تدريب نموذج 'word2vec' على بيانات التدريب ، وكيفية تقديم الكلمة في تمثيل المتجه.