لذلك، نحن بحاجة إلى نوع من الطريقة أو الحزمة التي يمكنها استخراج المعلومات ذات الصلة من مجموعات البيانات. بلغة بسيطة، يمكننا القول أننا بحاجة إلى خيار تصفية إضافي لتصفية مجموعات البيانات وفقًا لمتطلباتنا.
يوفر Hugging Face خيارات مختلفة لتصفية مجموعات البيانات مما يساعد المستخدمين على إنشاء مجموعات البيانات المخصصة التي تحتوي فقط على أمثلة أو معلومات تلبي شروطًا محددة.
حدد الطريقة ().
تعمل هذه الطريقة على قائمة من المؤشرات مما يعني أنه يتعين علينا تحديد قائمة. داخل تلك القائمة، علينا أن نذكر جميع قيم فهرس تلك الصفوف التي نريد استخراجها. لكن هذه الطريقة تعمل فقط مع مجموعات البيانات الصغيرة وليس مع مجموعات البيانات الضخمة، حيث لا يمكننا رؤية مجموعة البيانات بأكملها إذا كانت بالجيجابايت (جيجابايت) أو تيرابايت (تيرا بايت).
مثال :
new_dataset = dataset. يختار ( [ 0 , أحد عشر , واحد وعشرين , أربعة خمسة , خمسون , 55 ] )مطبعة ( فقط ( new_dataset ) )
في هذا المثال، استخدمنا طريقة 'التحديد' لتصفية المعلومات المطلوبة من مجموعة البيانات.
طريقة التصفية ().
تتغلب طريقة التصفية () على مشكلات عملية التحديد () حيث لا يوجد شرط محدد. تقوم طريقة التصفية () بإرجاع كافة الصفوف التي تطابق حالة أو حالة معينة.
مثال: نحفظ برنامج Python هذا باسم 'test.py'.
من مجموعات البيانات يستورد Load_dataset# الخطوة 1: تحميل مجموعة البيانات
dataset = Load_dataset ( 'إي إم دي بي' )
# الخطوة الثانية: تحديد وظيفة التصفية
مواطنه تصفية مخصص ( مثال ) :
'''
وظيفة تصفية مخصصة للاحتفاظ بالأمثلة الإيجابية
المشاعر (التسمية == 1).
'''
يعود مثال [ 'ملصق' ] == 1
# الخطوة 3: قم بتطبيق عامل التصفية لإنشاء مجموعة بيانات جديدة تمت تصفيتها
filter_dataset = dataset. منقي ( تصفية مخصص )
# الخطوة 4: تحقق من أسماء الأعمدة المتاحة في مجموعة البيانات التي تمت تصفيتها
مطبعة ( 'الأعمدة المتوفرة في مجموعة البيانات التي تمت تصفيتها:' ,
filter_dataset. column_names )
# الخطوة 5: الوصول إلى المعلومات من مجموعة البيانات التي تمت تصفيتها
filter_examples = filter_dataset [ 'يدرب' ]
num_filtered_examples = فقط ( filter_examples )
# الخطوة 6: اطبع العدد الإجمالي للأمثلة التي تمت تصفيتها
مطبعة ( 'إجمالي الأمثلة التي تمت تصفيتها:' , num_filtered_examples )
انتاج:
توضيح:
السطر 1: نقوم باستيراد حزمة Load_dataset المطلوبة من مجموعات البيانات.
السطر 4: نقوم بتحميل مجموعة بيانات 'imdb' باستخدام مجموعة بيانات التحميل.
الأسطر من 7 إلى 12: نحدد وظيفة التصفية المخصصة ' تصفية مخصص ' للاحتفاظ بالأمثلة ذات المشاعر الإيجابية (التسمية == 1). تقوم هذه الدالة بإرجاع الصفوف التي تكون قيمة تصنيفها 1 فقط.
السطر 15: يوضح هذا السطر أن مجموعة البيانات تحتوي على بيانات مراجعة الفيلم 'imdb'. نقوم الآن بتطبيق وظيفة التصفية على قاعدة البيانات هذه لفصل المراجعات الإيجابية عن قاعدة البيانات التي يتم تخزينها أيضًا في 'filtered_dataset'.
السطران 18 و19: الآن، نتحقق من أسماء الأعمدة المتوفرة في Filter_dataset. لذلك، يوفر كود 'filtered_dataset.column_names' تفاصيل متطلباتنا.
السطر 22 و 23: في هذه السطور، نقوم بتصفية عمود 'القطار' لمجموعة البيانات المرشحة وطباعة العدد الإجمالي (الطول) لعمود القطار.
السطر 26: في هذا السطر الأخير نطبع النتيجة من السطر رقم 23.
تصفية () مع المؤشرات
يمكن أيضًا استخدام طريقة التصفية () مع المؤشرات كما هو موضح في وضع التحديد (). ولكن من أجل ذلك، علينا أن نذكر أنه يجب تحديد الكلمة الأساسية 'with_indices=true' خارج طريقة filter() كما هو موضح في المثال التالي:
audio_dataset = dataset. منقي ( لامدا مثال , آي دي إكس: آي دي إكس % 2 != 0 , with_indices = حقيقي )مطبعة ( فقط ( audio_dataset ) )
في هذا المثال، استخدمنا طريقة التصفية () لتصفية المعلومات المطلوبة من مجموعة البيانات، بما في ذلك تلك الصفوف الفردية فقط.
يمكن العثور على التفاصيل الكاملة لكل معلمة في طريقة التصفية () على هذا وصلة .
خاتمة
توفر مكتبة مجموعة بيانات Hugging Face مجموعة أدوات قوية وسهلة الاستخدام للعمل بكفاءة مع مجموعات البيانات المختلفة، خاصة في سياق معالجة اللغات الطبيعية (NLP) ومهام التعلم الآلي. تسمح وظيفة التصفية () المقدمة في البرنامج للباحثين والممارسين باستخراج مجموعات فرعية ذات صلة من البيانات عن طريق تحديد معايير التصفية المحددة من قبل المستخدم. باستخدام هذه الوظيفة، يمكن للمستخدمين بسهولة إنشاء مجموعات بيانات جديدة تلبي شروطًا محددة مثل الحفاظ على المشاعر الإيجابية في مراجعات الأفلام أو استخراج بيانات نصية محددة.
يوضح هذا العرض التوضيحي خطوة بخطوة مدى سهولة تحميل مجموعة البيانات، وتطبيق وظائف التصفية المخصصة، والوصول إلى البيانات التي تمت تصفيتها. بالإضافة إلى ذلك، تسمح مرونة معلمات الوظيفة بعمليات التصفية المخصصة، بما في ذلك دعم المعالجة المتعددة لمجموعات البيانات الكبيرة. باستخدام مكتبة مجموعة بيانات Hugging Face، يمكن للمستخدمين تبسيط بياناتهم.