تضم حزمة sklearn.datasets بعض مجموعات البيانات الصغيرة وتوفر أدوات مساعدة لجلب مجموعات بيانات أكبر يشيع استخدامها من قبل مجتمع التعلم الآلي لاختبار الخوارزميات على البيانات التي تأتي من "العالم الحقيقي".

لتقييم تأثير حجم مجموعة البيانات (n_samples و n_features) مع التحكم في الخصائص الإحصائية للبيانات (عادةً ارتباط ومعلومات الميزات)، فهي كذلك من الممكن أيضًا إنشاء بيانات تركيبية.

واجهة برمجة تطبيقات مجموعة البيانات العامة. هناك ثلاثة أنواع رئيسية من واجهات مجموعة البيانات التي يمكن استخدامها للحصول على مجموعات البيانات اعتمادًا على النوع المطلوب من مجموعة البيانات.

أدوات تحميل مجموعة البيانات. يمكن استخدامها لتحميل مجموعات البيانات القياسية الصغيرة، موصوفة في قسم مجموعات البيانات التجريبية.

أدوات جلب مجموعة البيانات. يمكن استخدامها لتنزيل وتحميل مجموعات بيانات أكبر، موصوفة في قسم مجموعات بيانات العالم الحقيقي.

ترجع كل من وظائف التحميل والجلب كائن Bunch يحمل عنصرين على الأقل: مصفوفة من الشكل n_samples * n_features مع مفتاح data (باستثناء 20newsgroups) ومصفوفة numpy من الطول n_samples، تحتوي على القيم المستهدفة، مع مفتاح target.

كائن Bunch هو قاموس يعرض مفاتيحه كسمات. لمزيد من المعلومات حول كائن Bunch، انظر Bunch.

من الممكن أيضًا لجميع هذه الوظائف تقريبًا تقييد الإخراج لتكون مجموعة تحتوي فقط على البيانات والهدف، عن طريق تعيين معلمة return_X_y إلى True.

تحتوي مجموعات البيانات أيضًا على وصف كامل في سمة DESCR الخاصة بها وبعضها يحتوي على feature_names و target_names. انظر مجموعة البيانات الوصفات أدناه للحصول على التفاصيل.

وظائف إنشاء مجموعة البيانات. يمكن استخدامها لإنشاء مجموعات بيانات اصطناعية خاضعة للرقابة، موصوفة في قسم مجموعات البيانات المُولَّدة.

ترجع هذه الوظائف مجموعة (X، y) تتكون من n_samples * n_features numpy array X ومصفوفة بطول n_samples تحتوي على الأهداف y.

بالإضافة إلى ذلك، هناك أيضًا أدوات متنوعة لتحميل مجموعات البيانات بتنسيقات أخرى أو من مواقع أخرى، موصوفة في قسم تحميل مجموعات بيانات أخرى.