كيفية رسم بيانات PySpark على المدرج التكراري

Kyfyt Rsm Byanat Pyspark Ly Almdrj Altkrary



في PySpark ، يتم تصور البيانات باستخدام المدرج التكراري وتقنيات الرسم الأخرى. يساعد هذا في فهم مهندسي علوم البيانات بالبيانات الموجودة في التمثيل الرسومي. الوقت هو قيد مهم بالنسبة لهم. من خلال هذه التصورات ، يمكنهم تحليل البيانات بسرعة أكبر عند مقارنتها بتنسيقات البيانات الأخرى مثل text / csv وغيرها.

في هذا الدليل ، سنرى كيفية رسم بيانات PySpark على الرسم البياني. يمكننا أن نرى سيناريوهين هنا. يتم إنشاء المدرج التكراري على PySpark Pandas DataFrame وعلى بيانات RDD. بالنسبة لهذين السيناريوهين ، يوفر PySpark وظيفتين: pyspark.pandas.DataFrame.plot.hist () & pyspark.RDD.histogram.

موضوع المحتويات:







Pyspark.pandas.DataFrame.plot.hist ()

في هذا السيناريو ، يتم عرض الرسم البياني كتمثيل شبيه بالرسم البياني للبيانات التي تجمع مجموعة من الفئات في أعمدة (من PySpark Pandas DataFrame) جنبًا إلى جنب مع المحور x الأفقي. يمثل المحور y عدد التكرارات في PySpark Pandas DataFrame لكل عمود.



بناء الجملة:



pyspark_pandas_DataFrame.plot.hist (صناديق ، ...)

يأخذ العدد الإجمالي للسلالات كمعامل اختياري وهو عدد صحيح وبعض وسائط الكلمات الأساسية الاختيارية. إذا لم يتم تحديد الحاويات لكل عمود ، يتم إنشاء شريط.





رسم رسم بياني على PySpark Pandas DataFrame

قم بإنشاء PySpark Pandas DataFrame به عمودين مع 4 سجلات. ارسم المدرج التكراري بدون تمرير أي معلمة إلى الدالة plot.hist ().

من pyspark استيراد الباندا

pyspark_pandas_dataframe = pandas.DataFrame ({ 'ارتفاع المبنى' : [ 120.56 و 234.67 و 12.0 و 200.45 ] ، 'منطقة بناء' : [ 2 و 3 و 1 و 4 ]})

طباعة (pyspark_pandas_dataframe)

# مخطط PySpark-Pandas

pyspark_pandas_dataframe.plot.hist ()

انتاج:



هنا ، أسماء الأعمدة هي 'Building_height' و 'Building_Area'.

دعونا نلقي نظرة على المدرج الإحصائي:

العدد الإجمالي للصفوف في DataFrame السابق هو 4. لذلك ، تم إنشاء 4 سلال.

رسم رسم بياني على PySpark Pandas DataFrame مع معلمة الصناديق

قم بإنشاء PySpark Pandas DataFrame به عمودين مع 4 سجلات. ارسم المدرج التكراري بدون تمرير أي معلمة إلى الدالة plot.hist ().

من pyspark استيراد الباندا

pyspark_pandas_dataframe = pandas.DataFrame ({ 'ارتفاع المبنى' : [ 120.56 و 234.67 و 12.0 و 200.45 ] ، 'منطقة بناء' : [ 2 و 3 و 1 و 4 ]})

# مدرج تكراري PySpark-Pandas مع صندوقين

pyspark_pandas_dataframe.plot.hist (صناديق = 2 )

انتاج:

هنا ، أسماء الأعمدة هي 'Building_height' و 'Building_Area'.

لنلق نظرة على المدرج التكراري - يشير اللون الأحمر إلى 'مساحة_المبنى' ويشير اللون الأزرق إلى عمود 'ارتفاع_المبنى':

كما حددنا ، تم إنشاء صندوقين وشريطين فقط. يتم وضع أربعة صفوف في دلاء هنا.

رسم رسم بياني على PySpark RDD عن طريق تحديد رقم الحاوية

عندما تعمل باستخدام RDD ، يمكن إرجاع المدرج التكراري في شكل مجموعة تتضمن المجموعات والقيم الإجمالية الموجودة في كل مجموعة.

بناء الجملة:

مخطط pyspark_RDD (دلاء)

في هذا السيناريو ، نقوم بتمرير عدد المجموعات (عدد صحيح) المضمنة في المدرج التكراري. تقوم بإرجاع مجموعة القوائم التي تتضمن نطاقات المجموعة وتكرارات القيمة المقابلة بالتنسيق التالي: ([نطاقات دلو ...] ، [تكرارات القيمة ...]).

مثال 1:

لنقم بإنشاء RDD باسم 'Building_height' مع 10 قيم وإنشاء رسم بياني بثلاث مجموعات.

استيراد pyspark

من pyspark.sql import SparkSession

من pyspark.rdd استيراد RDD

spark_app = SparkSession.builder.appName ( 'لينوكس' ) .getOrCreate ()

# إنشاء RDD مع 10 قيم

Building_height = spark_app.sparkContext.parallelize ([ 120.56 و 234.67 و 12.0 و 200.45 و 17.8 و 24 و 56 و 78 و 90 و 100 ])

مطبعة( 'فِعلي: ' ، Building_height.collect ())

# تحديد 3 دلاء

بناء_ارتفاع. 3 )

انتاج:

  1. تتراوح Bucket-1 من 12.0 إلى 86.223: في هذا النطاق ، يبلغ إجمالي عدد القيم الموجودة في المجموعة 5.
  2. تتراوح قيمة Bucket-2 من 86.223 إلى 160.446: في هذا النطاق ، يبلغ إجمالي عدد القيم الموجودة في المجموعة 3.
  3. تتراوح قيمة Bucket-3 من 160.446 إلى 234.67: في هذا النطاق ، يبلغ إجمالي عدد القيم الموجودة في المجموعة 2.

المثال 2:

قم بإنشاء رسم بياني مع دلاء 2 على RDD الذي تم إنشاؤه مسبقًا.

استيراد pyspark

من pyspark.sql import SparkSession

من pyspark.rdd استيراد RDD

spark_app = SparkSession.builder.appName ( 'لينوكس' ) .getOrCreate ()

# إنشاء RDD مع 10 قيم

Building_height = spark_app.sparkContext.parallelize ([ 120.56 و 234.67 و 12.0 و 200.45 و 17.8 و 24 و 56 و 78 و 90 و 100 ])

مطبعة( 'فِعلي: ' ، Building_height.collect ())

# تحديد دلاء 2

بناء_ارتفاع. 2 )

انتاج:

  1. يتراوح الجرافة 1 من 12.0 إلى 123.335.35. في هذا النطاق ، يبلغ إجمالي عدد القيم الموجودة في المجموعة 8.
  2. يتراوح حجم الجرافة 2 من 123.335 إلى 234.67: في هذا النطاق ، يكون العدد الإجمالي للقيم الموجودة في المجموعة هو 2.

رسم رسم بياني على PySpark RDD عن طريق تحديد حجم كل مجموعة

في السيناريو السابق ، قمنا بتمرير الحاويات إلى وظيفة RDD.histogram (). الآن ، نقوم بتمرير أحجام الدلو واحدًا تلو الآخر داخل قائمة وتمرير هذه القائمة كمعامل لهذه الوظيفة. تأكد من أننا بحاجة إلى تحديد مجموعتين على الأقل بترتيب تصاعدي / تصاعدي ولن تحتوي على قيم مكررة.

بناء الجملة:

pyspark_RDD.histogram ([نطاقات الجرافة ...])

في هذا السيناريو ، نقوم بتمرير عدد المجموعات (عدد صحيح) المضمنة في الرسم البياني. تقوم بإرجاع مجموعة القوائم التي تتضمن نطاقات المجموعة وتكرارات القيمة المقابلة بالتنسيق التالي: ([نطاقات دلو ...] ، [تكرارات القيمة ...]).

مثال 1:

دعنا ننشئ RDD باسم 'Building_height' مع 10 قيم وننشئ مدرجًا تكراريًا بنطاق القيم [0 ، 50 ، 100 ، 150 ، 200 ، 250].

استيراد pyspark

من pyspark.sql import SparkSession

من pyspark.rdd استيراد RDD

spark_app = SparkSession.builder.appName ( 'لينوكس' ) .getOrCreate ()

# إنشاء RDD مع 10 قيم

Building_height = spark_app.sparkContext.parallelize ([ 120.56 و 234.67 و 12.0 و 200.45 و 17.8 و 24 و 56 و 178 و 90 و 100 ])

مطبعة( 'فِعلي: ' ، Building_height.collect ())

# تحديد حاوية بالحجم - [0،50،100،150،200،250]

مخطط_ارتفاع_المباني ([ 0 و خمسون و 100 و 150 و 200 و 250 ])

انتاج:

  1. المجموعة 1: (من 0 إلى 50): القيم الإجمالية في هذه المجموعة هي 3.
  2. المجموعة 1: (من 50 إلى 100): القيم الإجمالية في هذه المجموعة هي 2.
  3. المجموعة 1: (100 إلى 150): القيم الإجمالية في هذه المجموعة هي 2.
  4. المجموعة 1: (150 إلى 200): القيم الإجمالية في هذه المجموعة هي 2.
  5. المجموعة 1: (200 إلى 250): القيم الإجمالية في هذه المجموعة هي 2.

المثال الثاني:

قم بإنشاء مدرج تكراري باستخدام نطاق مجموعة القيم [0 ، 100 ، 200 ، 300].

استيراد pyspark

من pyspark.sql import SparkSession

من pyspark.rdd استيراد RDD

spark_app = SparkSession.builder.appName ( 'لينوكس' ) .getOrCreate ()

# إنشاء RDD مع 10 قيم

Building_height = spark_app.sparkContext.parallelize ([ 120.56 و 234.67 و 12.0 و 200.45 و 17.8 و 24 و 56 و 178 و 90 و 100 ])

مطبعة( 'فِعلي: ' ، Building_height.collect ())

# تحديد دلو بالحجم - [0،100،200،300]

مخطط_ارتفاع_المباني ([ 0 و 100 و 200 و 300 ])

انتاج:

  1. الجرافة 1: (من 0 إلى 100). القيمة الإجمالية في هذا المستودع هي 5.
  2. الجرافة 2: (100 إلى 200). القيمة الإجمالية في هذا المستودع هي 3.
  3. الجرافة 3: (200 إلى 300). القيمة الإجمالية في هذا المستودع هي 2.

خاتمة

لقد رأينا كيفية إنشاء الرسوم البيانية في PySpark على PySpark Pandas DataFrame و RDD. المدرج التكراري () هو الوظيفة المستخدمة للحصول على الرسم البياني على بيانات RDD. يتم استخدام plot.hist () لعرض الرسم البياني في PySpark Pandas DataFrame. ناقشنا هذه الوظائف مع أمثلة من خلال تغطية جميع المعلمات.