كيفية سلسلة مجموعات البيانات في معانقة الوجه

Kyfyt Slslt Mjmw At Albyanat Fy M Anqt Alwjh



توفر مكتبة 'مجموعات البيانات' من Hugging Face طريقة ملائمة للعمل مع مجموعات البيانات ومعالجتها لمهام معالجة اللغة الطبيعية. إحدى الوظائف المفيدة التي تقدمها المكتبة هي concatenate_datasets() والتي تسمح لك بتسلسل مجموعات بيانات متعددة في مجموعة بيانات واحدة. فيما يلي نظرة عامة مختصرة على وظيفة concatenate_datasets() وكيفية استخدامها.

سلسلة البيانات ()

وصف:

توفر مكتبة 'مجموعات البيانات' الخاصة بـ Hugging Face وظيفة concatenate_datasets(). يتم استخدامه لتسلسل مجموعات بيانات متعددة، ودمجها في مجموعة بيانات واحدة على طول محور محدد. تكون هذه الوظيفة مفيدة بشكل خاص عندما يكون لديك مجموعات بيانات متعددة تشترك في نفس البنية وتريد دمجها في مجموعة بيانات موحدة لمزيد من المعالجة والتحليل.







بناء الجملة:



من مجموعات البيانات يستورد concatenate_datasets

concatenated_dataset = concatenate_datasets ( مجموعات البيانات , محور = 0 , معلومات = لا أحد )

حدود:

مجموعات البيانات (قائمة مجموعة البيانات): قائمة مجموعات البيانات التي تريد ربطها. يجب أن تحتوي مجموعات البيانات هذه على ميزات متوافقة مما يعني أنها تحتوي على نفس المخطط وأسماء الأعمدة وأنواع البيانات.



محور (int, Optional, default=0): المحور الذي يجب تنفيذ التسلسل من خلاله. بالنسبة لمعظم مجموعات بيانات البرمجة اللغوية العصبية، يتم استخدام القيمة الافتراضية 0 مما يعني أن مجموعات البيانات متسلسلة عموديًا. إذا قمت بتعيين المحور = 1، فسيتم ربط مجموعات البيانات أفقيًا، على افتراض أنها تحتوي على أعمدة مختلفة كمعالم.





معلومات (datasets.DatasetInfo، اختياري): المعلومات حول مجموعة البيانات المتسلسلة. إذا لم يتم تقديمها، فسيتم استنتاج المعلومات من مجموعة البيانات الأولى في القائمة.

عائدات:

concatenated_dataset (مجموعة البيانات): مجموعة البيانات الناتجة بعد تسلسل كافة مجموعات البيانات المدخلة.



مثال:

# الخطوة 1: تثبيت مكتبة مجموعات البيانات

# يمكنك تثبيته باستخدام النقطة:

# !نقاط تثبيت مجموعات البيانات

# الخطوة 2: استيراد المكتبات المطلوبة

من مجموعات البيانات يستورد Load_dataset , concatenate_datasets

# الخطوة 3: قم بتحميل مجموعات بيانات مراجعة أفلام IMDb

# سنستخدم مجموعتي بيانات IMDb، إحداهما للمراجعات الإيجابية

#وأخرى للمراجعات السلبية.

# تحميل 2500 تعليق إيجابي

dataset_pos = Load_dataset ( 'إي إم دي بي' , ينقسم = 'القطار[:2500]' )

# تحميل 2500 مراجعة سلبية

dataset_neg = Load_dataset ( 'إي إم دي بي' , ينقسم = 'القطار [-2500:]' )

# الخطوة 4: قم بتسلسل مجموعات البيانات

# نقوم بربط مجموعتي البيانات على طول المحور = 0، كما حدث بالفعل

نفس المخطط ( نفس الميزات ) .

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

# الخطوة 5: تحليل مجموعة البيانات المتسلسلة

# للتبسيط، دعونا نحسب عدد الإيجابية والسلبية

# مراجعة في مجموعة البيانات المتسلسلة.

num_positive_reviews = مجموع ( 1 ل ملصق في

concatenated_dataset [ 'ملصق' ] لو ملصق == 1 )

num_negative_reviews = مجموع ( 1 ل ملصق في

concatenated_dataset [ 'ملصق' ] لو ملصق == 0 )

# الخطوة السادسة: عرض النتائج

مطبعة ( 'عدد المراجعات الإيجابية:' , num_positive_reviews )

مطبعة ( 'عدد المراجعات السلبية:' , num_negative_reviews )

# الخطوة 7: اطبع بعض أمثلة المراجعات من مجموعة البيانات المتسلسلة

مطبعة ( ' بعض الأمثلة على المراجعات:' )

ل أنا في يتراوح ( 5 ) :

مطبعة ( F 'مراجعة {i + 1}: {concatenated_dataset['text'][i]}' )

انتاج:

فيما يلي شرح لبرنامج مكتبة 'مجموعات البيانات' الخاص بـ Hugging Face والذي يجمع بين مجموعتي بيانات مراجعة أفلام IMDb. وهذا يشرح الغرض من البرنامج واستخدامه والخطوات المتضمنة في الكود.

دعونا نقدم شرحًا أكثر تفصيلاً لكل خطوة في الكود:

# الخطوة 1: استيراد المكتبات المطلوبة

من مجموعات البيانات يستورد Load_dataset , concatenate_datasets

في هذه الخطوة نقوم باستيراد المكتبات اللازمة للبرنامج. نحتاج إلى وظيفة 'load_dataset' لتحميل مجموعات بيانات مراجعة أفلام IMDb، ووظيفة 'concatenate_datasets' لتسلسلها لاحقًا.

# الخطوة 2: قم بتحميل مجموعات بيانات مراجعة أفلام IMDb

# تحميل 2500 تعليق إيجابي

dataset_pos = Load_dataset ( 'إي إم دي بي' , ينقسم = 'القطار[:2500]' )

# تحميل 2500 مراجعة سلبية

dataset_neg = Load_dataset ( 'إي إم دي بي' , ينقسم = 'القطار [-2500:]' )

هنا، نستخدم وظيفة 'load_dataset' لجلب مجموعتين فرعيتين من مجموعة بيانات IMDb. تحتوي 'dataset_pos' على 2500 مراجعة إيجابية وتحتوي 'dataset_neg' على 2500 مراجعة سلبية. نستخدم المعلمة المقسمة لتحديد نطاق الأمثلة المراد تحميلها مما يسمح لنا بتحديد مجموعة فرعية من مجموعة البيانات بأكملها.

# الخطوة 3: قم بتسلسل مجموعات البيانات

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

في هذه الخطوة، نقوم بربط المجموعتين الفرعيتين من مجموعة بيانات IMDb في مجموعة بيانات واحدة تسمى 'مجموعة بيانات متسلسلة'. نستخدم وظيفة 'concatenate_datasets' ونمررها بقائمة تحتوي على مجموعتي البيانات المراد تسلسلهما. نظرًا لأن كلتا مجموعتي البيانات لهما نفس الميزات، فإننا نقوم بتسلسلهما على طول المحور = 0 مما يعني أن الصفوف مكدسة فوق بعضها البعض.

# الخطوة 4: تحليل مجموعة البيانات المتسلسلة

num_positive_reviews = مجموع ( 1 ل ملصق في

concatenated_dataset [ 'ملصق' ] لو ملصق == 1 )

num_negative_reviews = مجموع ( 1 ل ملصق في

concatenated_dataset [ 'ملصق' ] لو ملصق == 0 )

هنا، نقوم بإجراء تحليل بسيط لمجموعة البيانات المتسلسلة. نحن نستخدم فهم القائمة جنبًا إلى جنب مع وظيفة 'المجموع' لحساب عدد المراجعات الإيجابية والسلبية. نحن نكرر من خلال ' label' في عمود 'concatenated_dataset' وقم بزيادة الأعداد عندما نواجه تسمية إيجابية (1) أو تسمية سلبية (0).

# الخطوة 5: عرض النتائج

مطبعة ( 'عدد المراجعات الإيجابية:' , num_positive_reviews )

مطبعة ( 'عدد المراجعات السلبية:' , num_negative_reviews )

في هذه الخطوة، نقوم بطباعة نتائج تحليلنا - عدد المراجعات الإيجابية والسلبية في مجموعة البيانات المتسلسلة.

# الخطوة 6: اطبع بعض الأمثلة على المراجعات

مطبعة ( ' بعض الأمثلة على المراجعات:' )

ل أنا في يتراوح ( 5 ) :

مطبعة ( F 'مراجعة {i + 1}: {concatenated_dataset['text'][i]}' )

أخيرًا، نعرض بعض الأمثلة على المراجعات من مجموعة البيانات المتسلسلة. نستعرض الأمثلة الخمسة الأولى في مجموعة البيانات ونطبع محتواها النصي باستخدام عمود 'النص'.

يوضح هذا الرمز مثالًا مباشرًا لاستخدام مكتبة 'مجموعات البيانات' الخاصة بـ Hugging Face لتحميل مجموعات بيانات مراجعة أفلام IMDb وتسلسلها وتحليلها. وهو يسلط الضوء على قدرة المكتبة على تبسيط التعامل مع مجموعة بيانات البرمجة اللغوية العصبية ويعرض إمكاناتها لبناء نماذج وتطبيقات أكثر تطوراً لمعالجة اللغة الطبيعية.

خاتمة

يوضح برنامج Python الذي يستخدم مكتبة 'مجموعات البيانات' الخاصة بـ Hugging Face بنجاح تسلسل مجموعتي بيانات مراجعة أفلام IMDb. عن طريق تحميل المجموعات الفرعية من المراجعات الإيجابية والسلبية، يقوم البرنامج بدمجها في مجموعة بيانات واحدة باستخدام وظيفة concatenate_datasets(). ثم يقوم بإجراء تحليل بسيط عن طريق حساب عدد المراجعات الإيجابية والسلبية في مجموعة البيانات المجمعة.

تعمل مكتبة 'مجموعات البيانات' على تبسيط عملية التعامل مع مجموعات بيانات البرمجة اللغوية العصبية ومعالجتها، مما يجعلها أداة قوية للباحثين والمطورين وممارسي البرمجة اللغوية العصبية. بفضل واجهتها سهلة الاستخدام ووظائفها الواسعة، تتيح المكتبة معالجة البيانات واستكشافها وتحويلها بسهولة. يعد البرنامج المعروض في هذه الوثائق بمثابة مثال عملي لكيفية الاستفادة من المكتبة لتبسيط مهام تسلسل البيانات وتحليلها.

في سيناريوهات الحياة الواقعية، يمكن أن يكون هذا البرنامج بمثابة أساس لمهام معالجة اللغة الطبيعية الأكثر تعقيدًا مثل تحليل المشاعر وتصنيف النص ونمذجة اللغة. باستخدام مكتبة 'مجموعات البيانات'، يمكن للباحثين والمطورين إدارة مجموعات البيانات واسعة النطاق بكفاءة، وتسهيل التجريب، وتسريع تطوير نماذج البرمجة اللغوية العصبية (NLP) الحديثة. بشكل عام، تمثل مكتبة 'مجموعات البيانات' Hugging Face أحد الأصول الأساسية في السعي لتحقيق التقدم في معالجة اللغات الطبيعية وفهمها.