تضم حزمة sklearn.datasets
بعض مجموعات البيانات الصغيرة
وتوفر أدوات مساعدة
لجلب مجموعات بيانات أكبر يشيع استخدامها من قبل مجتمع التعلم الآلي
لاختبار
الخوارزميات على البيانات التي تأتي من "العالم الحقيقي".
لتقييم تأثير حجم مجموعة البيانات (n_samples
و
n_features
) مع التحكم في الخصائص الإحصائية للبيانات
(عادةً ارتباط ومعلومات الميزات)، فهي كذلك
من الممكن أيضًا إنشاء بيانات تركيبية.
واجهة برمجة تطبيقات مجموعة البيانات العامة. هناك ثلاثة أنواع رئيسية من واجهات مجموعة البيانات التي يمكن استخدامها للحصول على مجموعات البيانات اعتمادًا على النوع المطلوب من مجموعة البيانات.
أدوات تحميل مجموعة البيانات. يمكن استخدامها لتحميل مجموعات البيانات القياسية الصغيرة، موصوفة في قسم مجموعات البيانات التجريبية.
أدوات جلب مجموعة البيانات. يمكن استخدامها لتنزيل وتحميل مجموعات بيانات أكبر، موصوفة في قسم مجموعات بيانات العالم الحقيقي.
ترجع كل من وظائف التحميل والجلب كائن Bunch
يحمل عنصرين على الأقل:
مصفوفة من الشكل n_samples
* n_features
مع
مفتاح data
(باستثناء 20newsgroups) ومصفوفة numpy من
الطول n_samples
، تحتوي على القيم المستهدفة،
مع مفتاح target
.
كائن Bunch هو قاموس يعرض مفاتيحه كسمات.
لمزيد من المعلومات حول كائن Bunch، انظر
Bunch
.
من الممكن أيضًا لجميع هذه الوظائف تقريبًا تقييد الإخراج
لتكون مجموعة تحتوي فقط على البيانات والهدف، عن طريق تعيين
معلمة return_X_y
إلى True
.
تحتوي مجموعات البيانات أيضًا على وصف كامل في سمة DESCR
الخاصة
بها وبعضها يحتوي على feature_names
و target_names
. انظر مجموعة البيانات
الوصفات أدناه للحصول على التفاصيل.
وظائف إنشاء مجموعة البيانات. يمكن استخدامها لإنشاء مجموعات بيانات اصطناعية خاضعة للرقابة، موصوفة في قسم مجموعات البيانات المُولَّدة.
ترجع هذه الوظائف مجموعة (X، y)
تتكون من n_samples
*
n_features
numpy array X
ومصفوفة بطول n_samples
تحتوي على الأهداف y
.
بالإضافة إلى ذلك، هناك أيضًا أدوات متنوعة لتحميل مجموعات البيانات بتنسيقات أخرى أو من مواقع أخرى، موصوفة في قسم تحميل مجموعات بيانات أخرى.