1.14. التعليم شبه الخاضع للإشراف#

التعليم شبه الخاضع للإشراف هي حالة في مجموعة بيانات التدريب الخاصة بك، بعض العينات غير مصنفة. يمكن لمقدرات التعليم شبه الخاضع للإشراف في sklearn.semi_supervised استخدام هذه البيانات غير المصنفة الإضافية لالتقاط شكل توزيع البيانات الأساسي بشكل أفضل وتعميم أفضل للعينات الجديدة. يمكن لهذه الخوارزميات أن تؤدي أداءً جيدًا عندما يكون لدينا كمية صغيرة جدًا من النقاط المصنفة وكمية كبيرة من النقاط غير المصنفة.

ملاحظة

تحتاج خوارزميات التعليم شبه الخاضع للإشراف إلى افتراضات حول توزيع مجموعة البيانات من أجل تحقيق مكاسب في الأداء. راجع هنا لمزيد من التفاصيل.

1.14.1. التدريب الذاتي#

يستند هذا التنفيذ للتدريب الذاتي إلى خوارزمية Yarowsky [1]. باستخدام هذه الخوارزمية، يمكن لمصنف مشرف معين أن يعمل كمصنف شبه مشرف، مما يسمح له بالتعلم من البيانات غير المصنفة.

يمكن استدعاء SelfTrainingClassifier مع أي مصنف ينفذ predict_proba، ويمرر كمعلمة base_classifier. في كل تكرار، يتنبأ base_classifier بالتصنيفات للعينات غير المصنفة ويضيف مجموعة فرعية من هذه التصنيفات إلى مجموعة البيانات المصنفة.

يتم تحديد اختيار هذه المجموعة الفرعية بواسطة معيار الاختيار. يمكن إجراء هذا الاختيار باستخدام threshold على احتمالات التنبؤ، أو باختيار k_best العينات وفقًا لاحتمالات التنبؤ.

تتوفر التصنيفات المستخدمة للتجهيز النهائي وكذلك التكرار الذي تم فيه تصنيف كل عينة كميزات. تحدد المعلمة الاختيارية max_iter عدد المرات التي يتم فيها تنفيذ الحلقة كحد أقصى.

قد يتم تعيين معلمة max_iter إلى None، مما يتسبب في تكرار الخوارزمية حتى يتم تصنيف جميع العينات أو عدم تحديد عينات جديدة في هذا التكرار.

ملاحظة

عند استخدام مصنف التدريب الذاتي، calibration للمصنف مهم.

أمثلة

المراجع

1.14.2. انتشار التصنيف#

يشير انتشار التصنيف إلى بعض التباينات في خوارزميات الاستدلال الرسومي شبه المشرف.

تتوفر بعض الميزات في هذا النموذج:
  • تستخدم لمهام التصنيف

  • أساليب النواة لمشروع البيانات في مساحات الأبعاد البديلة

يوفر scikit-learn نموذجين لانتشار التصنيف: LabelPropagation و LabelSpreading. كلاهما يعمل من خلال بناء رسم بياني للتشابه عبر جميع العناصر في مجموعة البيانات المدخلة.

../_images/sphx_glr_plot_label_propagation_structure_001.png

توضيح انتشار التصنيف: يتسق هيكل الملاحظات غير المصنفة مع هيكل الفئة، وبالتالي يمكن نشر فئة التصنيف إلى الملاحظات غير المصنفة لمجموعة التدريب.#

يختلف LabelPropagation و LabelSpreading في التعديلات على مصفوفة التشابه التي يتم رسمها والآثار المقيدة على توزيعات التصنيف. يسمح التقييد للخوارزمية بتغيير وزن البيانات المصنفة الحقيقية إلى حد ما. يقوم خوارزمية LabelPropagation بتقييد صعب لإدخالات التصنيف، مما يعني \(\alpha=0\). يمكن استرخاء هذا عامل التقييد، ليقول \(\alpha=0.2\)، مما يعني أننا سنحتفظ دائمًا بنسبة 80 في المائة من توزيع التصنيف الأصلي، ولكن الخوارزمية تحصل على تغيير ثقتها في التوزيع ضمن 20 في المائة.

يستخدم LabelPropagation مصفوفة التشابه الخام التي تم إنشاؤها من البيانات دون تعديلات. على العكس من ذلك، يقلل LabelSpreading من دالة الخسارة التي لها خصائص تنظيمية، وبالتالي فهي غالبًا أكثر مقاومة للضوضاء. تقوم الخوارزمية بتكرار الإصدار المعدل من الرسم البياني الأصلي وتطبيع أوزان الحواف عن طريق حساب مصفوفة لابلاسيان الرسم البياني المعياري. يتم استخدام هذا الإجراء أيضًا في التجميع الطيفي.

تتوفر في نماذج انتشار التصنيف طريقتان مدمجتان للنواة. يؤثر اختيار النواة على كل من قابلية التوسع وأداء الخوارزميات. فيما يلي ما هو متاح:

  • rbf (\(\exp(-\gamma |x-y|^2), \gamma > 0\)). \(\gamma\) يتم تحديدها بواسطة الكلمة الرئيسية gamma.

  • knn (\(1[x' \in kNN(x)]\)). \(k\) يتم تحديدها بواسطة الكلمة الرئيسية n_neighbors.

ستنتج نواة RBF رسمًا بيانيًا متصلًا بالكامل يتم تمثيله في الذاكرة بمصفوفة كثيفة. قد تكون هذه المصفوفة كبيرة جدًا، بالإضافة إلى تكلفة إجراء عملية ضرب المصفوفة الكاملة في كل تكرار للخوارزمية، مما قد يؤدي إلى أوقات تشغيل طويلة للغاية. من ناحية أخرى، ستنتج نواة KNN مصفوفة نادرة أكثر ملاءمة للذاكرة والتي يمكن أن تقلل بشكل كبير من أوقات التشغيل.

أمثلة

المراجع

غير معلم وظيفة الاستقراء في التعليم شبه الخاضع للإشراف. AISTAT 2005 https://www.gatsby.ucl.ac.uk/aistats/fullpapers/204.pdf