.. _sample_generators: مجموعات البيانات المُولَّدة =========================== .. currentmodule:: sklearn.datasets بالإضافة إلى ذلك، يتضمن scikit-learn العديد من مولدات العينات العشوائية التي يمكن استخدامها لبناء مجموعات بيانات اصطناعية ذات حجم وتعقيد متحكم بهما. مولدات البيانات التصنيف والتجميع ------------------------------------ تنتج هذه المولدات مصفوفة من الميزات والأهداف المنفصلة المقابلة. توليد بيانات للتصنيف الثنائي ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ينشئ كل من :func:`make_blobs` و :func:`make_classification` مجموعات بيانات متعددة الفئات من خلال تخصيص مجموعة واحدة أو أكثر من نقاط التوزيع الطبيعي لكل فئة. يوفر :func:`make_blobs` تحكمًا أكبر فيما يتعلق بالمراكز والانحرافات المعيارية لكل مجموعة، ويستخدم لشرح التجميع. يتخصص :func:`make_classification` في إدخال الضوضاء عن طريق: الميزات المترابطة والمتكررة وغير المفيدة؛ مجموعات غاوسية متعددة لكل فئة؛ والتحويلات الخطية لمساحة الميزات. يقسم :func:`make_gaussian_quantiles` مجموعة غاوسية واحدة إلى فئات متساوية الحجم تقريبًا مفصولة بكرات فائقة متحدة المركز. يُنشئ :func:`make_hastie_10_2` مشكلة ثنائية مماثلة ذات 10 أبعاد. .. image:: ../auto_examples/datasets/images/sphx_glr_plot_random_dataset_001.png :target: ../auto_examples/datasets/plot_random_dataset.html :scale: 50 :align: center يُنشئ :func:`make_circles` و :func:`make_moons` مجموعات بيانات تصنيف ثنائية الأبعاد تمثل تحديًا لبعض الخوارزميات (مثل التجميع القائم على النقط المركزية أو التصنيف الخطي)، بما في ذلك ضوضاء غاوسية اختيارية. إنها مفيدة للتخيل. ينتج :func:`make_circles` بيانات غاوسية بحدود قرار كروية للتصنيف الثنائي، بينما ينتج :func:`make_moons` نصفين دائريين متداخلين. توليد بيانات للتصنيف المتعدد ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ يُنشئ :func:`make_multilabel_classification` عينات عشوائية بتسميات متعددة، مما يعكس حقيبة من الكلمات مستمدة من مزيج من المواضيع. يتم استخلاص عدد المواضيع لكل مستند من توزيع بواسون، ويتم استخلاص المواضيع نفسها من توزيع عشوائي ثابت. وبالمثل، يتم استخلاص عدد الكلمات من بواسون، مع استخلاص الكلمات من متعدد الحدود، حيث يُعرِّف كل موضوع توزيع احتمالية على الكلمات. تتضمن التبسيطات فيما يتعلق بمخاليط حقيبة الكلمات الحقيقية ما يلي: * يتم استخلاص توزيعات الكلمات لكل موضوع بشكل مستقل، حيث في الواقع تتأثر جميعها بتوزيع أساسي متناثر، وستكون مترابطة. * بالنسبة للمستند الذي تم إنشاؤه من مواضيع متعددة، يتم ترجيح جميع المواضيع بالتساوي في إنشاء حقيبة الكلمات الخاصة به. * المستندات التي ليس لها تسميات كلمات عشوائية، بدلاً من توزيع أساسي. .. image:: ../auto_examples/datasets/images/sphx_glr_plot_random_multilabel_dataset_001.png :target: ../auto_examples/datasets/plot_random_multilabel_dataset.html :scale: 50 :align: center توليد بيانات للتجميع الثنائي ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ .. autosummary:: make_biclusters make_checkerboard توليد بيانات للانحدار ------------------------ ينتج :func:`make_regression` أهداف الانحدار كمزيج خطي عشوائي متناثر اختياريًا من الميزات العشوائية، مع ضوضاء. قد تكون ميزاتها المفيدة غير مترابطة، أو ذات مرتبة منخفضة (عدد قليل من الميزات يفسر معظم التباين). تُنشئ مولدات الانحدار الأخرى دوالًا بشكل حتمي من الميزات العشوائية. ينتج :func:`make_sparse_uncorrelated` هدفًا كمزيج خطي من أربع ميزات ذات معاملات ثابتة. يُشفِّر الآخرون العلاقات غير الخطية بشكل صريح: يرتبط :func:`make_friedman1` بتحويلات متعددة الحدود والجيب؛ يتضمن :func:`make_friedman2` ضرب الميزات والمعاملة بالمثل؛ و :func:`make_friedman3` مشابه مع تحويل قوس ظل على الهدف. مولدات البيانات لتعليم التشعبي manifold ------------------------------------------ .. autosummary:: make_s_curve make_swiss_roll مولدات البيانات للتحليل التراكب decomposition ------------------------------------------------- .. autosummary:: make_low_rank_matrix make_sparse_coded_signal make_spd_matrix make_sparse_spd_matrix