9. مجموعات البيانات المُولَّدة#

بالإضافة إلى ذلك، يتضمن scikit-learn العديد من مولدات العينات العشوائية التي يمكن استخدامها لبناء مجموعات بيانات اصطناعية ذات حجم وتعقيد متحكم بهما.

9.1. مولدات البيانات التصنيف والتجميع#

تنتج هذه المولدات مصفوفة من الميزات والأهداف المنفصلة المقابلة.

9.1.1. توليد بيانات للتصنيف الثنائي#

ينشئ كل من make_blobs و make_classification مجموعات بيانات متعددة الفئات من خلال تخصيص مجموعة واحدة أو أكثر من نقاط التوزيع الطبيعي لكل فئة. يوفر make_blobs تحكمًا أكبر فيما يتعلق بالمراكز والانحرافات المعيارية لكل مجموعة، ويستخدم لشرح التجميع. يتخصص make_classification في إدخال الضوضاء عن طريق: الميزات المترابطة والمتكررة وغير المفيدة؛ مجموعات غاوسية متعددة لكل فئة؛ والتحويلات الخطية لمساحة الميزات.

يقسم make_gaussian_quantiles مجموعة غاوسية واحدة إلى فئات متساوية الحجم تقريبًا مفصولة بكرات فائقة متحدة المركز. يُنشئ make_hastie_10_2 مشكلة ثنائية مماثلة ذات 10 أبعاد.

auto_examples/datasets/images/sphx_glr_plot_random_dataset_001.png

يُنشئ make_circles و make_moons مجموعات بيانات تصنيف ثنائية الأبعاد تمثل تحديًا لبعض الخوارزميات (مثل التجميع القائم على النقط المركزية أو التصنيف الخطي)، بما في ذلك ضوضاء غاوسية اختيارية. إنها مفيدة للتخيل. ينتج make_circles بيانات غاوسية بحدود قرار كروية للتصنيف الثنائي، بينما ينتج make_moons نصفين دائريين متداخلين.

9.1.2. توليد بيانات للتصنيف المتعدد#

يُنشئ make_multilabel_classification عينات عشوائية بتسميات متعددة، مما يعكس حقيبة من الكلمات مستمدة من مزيج من المواضيع. يتم استخلاص عدد المواضيع لكل مستند من توزيع بواسون، ويتم استخلاص المواضيع نفسها من توزيع عشوائي ثابت. وبالمثل، يتم استخلاص عدد الكلمات من بواسون، مع استخلاص الكلمات من متعدد الحدود، حيث يُعرِّف كل موضوع توزيع احتمالية على الكلمات. تتضمن التبسيطات فيما يتعلق بمخاليط حقيبة الكلمات الحقيقية ما يلي:

  • يتم استخلاص توزيعات الكلمات لكل موضوع بشكل مستقل، حيث في الواقع تتأثر جميعها بتوزيع أساسي متناثر، وستكون مترابطة.

  • بالنسبة للمستند الذي تم إنشاؤه من مواضيع متعددة، يتم ترجيح جميع المواضيع بالتساوي في إنشاء حقيبة الكلمات الخاصة به.

  • المستندات التي ليس لها تسميات كلمات عشوائية، بدلاً من توزيع أساسي.

../_images/sphx_glr_plot_random_multilabel_dataset_001.png

9.1.3. توليد بيانات للتجميع الثنائي#

make_biclusters(shape, n_clusters, *[, ...])

Generate a constant block diagonal structure array for biclustering.

make_checkerboard(shape, n_clusters, *[, ...])

Generate an array with block checkerboard structure for biclustering.

9.2. توليد بيانات للانحدار#

ينتج make_regression أهداف الانحدار كمزيج خطي عشوائي متناثر اختياريًا من الميزات العشوائية، مع ضوضاء. قد تكون ميزاتها المفيدة غير مترابطة، أو ذات مرتبة منخفضة (عدد قليل من الميزات يفسر معظم التباين).

تُنشئ مولدات الانحدار الأخرى دوالًا بشكل حتمي من الميزات العشوائية. ينتج make_sparse_uncorrelated هدفًا كمزيج خطي من أربع ميزات ذات معاملات ثابتة. يُشفِّر الآخرون العلاقات غير الخطية بشكل صريح: يرتبط make_friedman1 بتحويلات متعددة الحدود والجيب؛ يتضمن make_friedman2 ضرب الميزات والمعاملة بالمثل؛ و make_friedman3 مشابه مع تحويل قوس ظل على الهدف.

9.3. مولدات البيانات لتعليم التشعبي manifold#

make_s_curve([n_samples, noise, random_state])

Generate an S curve dataset.

make_swiss_roll([n_samples, noise, ...])

Generate a swiss roll dataset.

9.4. مولدات البيانات للتحليل التراكب decomposition#

make_low_rank_matrix([n_samples, ...])

Generate a mostly low rank matrix with bell-shaped singular values.

make_sparse_coded_signal(n_samples, *, ...)

Generate a signal as a sparse combination of dictionary elements.

make_spd_matrix(n_dim, *[, random_state])

Generate a random symmetric, positive-definite matrix.

make_sparse_spd_matrix([n_dim, alpha, ...])

Generate a sparse symmetric definite positive matrix.