.. _semi_supervised:

===================================================
التعليم شبه الخاضع للإشراف
===================================================

.. currentmodule:: sklearn.semi_supervised

`التعليم شبه الخاضع للإشراف
<https://en.wikipedia.org/wiki/Semi-supervised_learning>`_ هي حالة
في مجموعة بيانات التدريب الخاصة بك، بعض العينات غير مصنفة.
يمكن لمقدرات التعليم شبه الخاضع للإشراف في :mod:`sklearn.semi_supervised`
استخدام هذه البيانات غير المصنفة الإضافية لالتقاط شكل توزيع البيانات الأساسي بشكل أفضل
وتعميم أفضل للعينات الجديدة.
يمكن لهذه الخوارزميات أن تؤدي أداءً جيدًا عندما يكون لدينا كمية صغيرة جدًا من
النقاط المصنفة وكمية كبيرة من النقاط غير المصنفة.

.. topic:: الإدخالات غير المصنفة في `y`

   من المهم تعيين محدد للعينات غير المصنفة إلى جانب
   البيانات المصنفة عند تدريب النموذج باستخدام طريقة ``fit``. المحدد الذي يستخدمه هذا التنفيذ هو القيمة الصحيحة :math:`-1`.
   لاحظ أنه بالنسبة للتصنيفات النصية، يجب أن يكون نوع البيانات `y` كائنًا بحيث يمكنه
   احتواء كل من السلاسل النصية والأعداد الصحيحة.

.. note::

   تحتاج خوارزميات التعليم شبه الخاضع للإشراف إلى افتراضات حول توزيع
   مجموعة البيانات من أجل تحقيق مكاسب في الأداء. راجع `هنا
   <https://en.wikipedia.org/wiki/Semi-supervised_learning#Assumptions>`_
   لمزيد من التفاصيل.

.. _self_training:

التدريب الذاتي
=============

يستند هذا التنفيذ للتدريب الذاتي إلى خوارزمية Yarowsky [1]_. باستخدام
هذه الخوارزمية، يمكن لمصنف مشرف معين أن يعمل كمصنف شبه مشرف، مما يسمح له بالتعلم من البيانات غير المصنفة.

يمكن استدعاء :class:`SelfTrainingClassifier` مع أي مصنف ينفذ
`predict_proba`، ويمرر كمعلمة `base_classifier`. في
كل تكرار، يتنبأ `base_classifier` بالتصنيفات للعينات غير المصنفة
ويضيف مجموعة فرعية من هذه التصنيفات إلى مجموعة البيانات المصنفة.

يتم تحديد اختيار هذه المجموعة الفرعية بواسطة معيار الاختيار. يمكن إجراء هذا
الاختيار باستخدام `threshold` على احتمالات التنبؤ، أو
باختيار `k_best` العينات وفقًا لاحتمالات التنبؤ.

تتوفر التصنيفات المستخدمة للتجهيز النهائي وكذلك التكرار الذي تم فيه تصنيف كل عينة
كميزات. تحدد المعلمة الاختيارية `max_iter` عدد المرات التي يتم فيها تنفيذ الحلقة كحد أقصى.

قد يتم تعيين معلمة `max_iter` إلى `None`، مما يتسبب في تكرار
الخوارزمية حتى يتم تصنيف جميع العينات أو عدم تحديد عينات جديدة في هذا التكرار.

.. note::

   عند استخدام مصنف التدريب الذاتي،
   :ref:`calibration <calibration>` للمصنف مهم.

.. rubric:: أمثلة

* :ref:`sphx_glr_auto_examples_semi_supervised_plot_self_training_varying_threshold.py`
* :ref:`sphx_glr_auto_examples_semi_supervised_plot_semi_supervised_versus_svm_iris.py`

.. rubric:: المراجع

.. [1] :doi:`"Unsupervised word sense disambiguation rivaling supervised methods"
    <10.3115/981658.981684>`
    David Yarowsky، وقائع الاجتماع السنوي الثالث والثلاثين حول جمعية معالجة اللغة الحاسوبية (ACL '95). جمعية معالجة اللغة الحاسوبية،
    Stroudsburg، PA، الولايات المتحدة الأمريكية، 189-196.

.. _label_propagation:

انتشار التصنيف
=================
يشير انتشار التصنيف إلى بعض التباينات في خوارزميات الاستدلال الرسومي شبه المشرف.

تتوفر بعض الميزات في هذا النموذج:
  * تستخدم لمهام التصنيف
  * أساليب النواة لمشروع البيانات في مساحات الأبعاد البديلة

يوفر `scikit-learn` نموذجين لانتشار التصنيف:
:class:`LabelPropagation` و :class:`LabelSpreading`. كلاهما يعمل من خلال
بناء رسم بياني للتشابه عبر جميع العناصر في مجموعة البيانات المدخلة.

.. figure:: ../auto_examples/semi_supervised/images/sphx_glr_plot_label_propagation_structure_001.png
    :target: ../auto_examples/semi_supervised/plot_label_propagation_structure.html
    :align: center
    :scale: 60%

    **توضيح انتشار التصنيف:** *يتسق هيكل الملاحظات غير المصنفة مع هيكل الفئة، وبالتالي يمكن نشر فئة التصنيف إلى الملاحظات غير المصنفة لمجموعة التدريب.*

يختلف :class:`LabelPropagation` و :class:`LabelSpreading`
في التعديلات على مصفوفة التشابه التي يتم رسمها والآثار المقيدة على توزيعات التصنيف.
يسمح التقييد للخوارزمية بتغيير وزن البيانات المصنفة الحقيقية إلى حد ما. يقوم خوارزمية :class:`LabelPropagation` بتقييد صعب لإدخالات التصنيف، مما يعني :math:`\alpha=0`. يمكن استرخاء هذا عامل التقييد، ليقول :math:`\alpha=0.2`، مما يعني أننا سنحتفظ دائمًا
بنسبة 80 في المائة من توزيع التصنيف الأصلي، ولكن الخوارزمية تحصل على تغيير ثقتها في التوزيع ضمن 20 في المائة.

يستخدم :class:`LabelPropagation` مصفوفة التشابه الخام التي تم إنشاؤها من
البيانات دون تعديلات. على العكس من ذلك، يقلل :class:`LabelSpreading`
من دالة الخسارة التي لها خصائص تنظيمية، وبالتالي فهي غالبًا أكثر مقاومة للضوضاء. تقوم الخوارزمية بتكرار الإصدار المعدل من الرسم البياني الأصلي وتطبيع أوزان الحواف عن طريق
حساب مصفوفة لابلاسيان الرسم البياني المعياري. يتم استخدام هذا الإجراء أيضًا في :ref:`spectral_clustering`.

تتوفر في نماذج انتشار التصنيف طريقتان مدمجتان للنواة. يؤثر اختيار النواة على كل من قابلية التوسع وأداء الخوارزميات. فيما يلي ما هو
متاح:

* rbf (:math:`\exp(-\gamma |x-y|^2), \gamma > 0`). :math:`\gamma`
  يتم تحديدها بواسطة الكلمة الرئيسية gamma.

* knn (:math:`1[x' \in kNN(x)]`). :math:`k` يتم تحديدها بواسطة الكلمة الرئيسية
  n_neighbors.

ستنتج نواة RBF رسمًا بيانيًا متصلًا بالكامل يتم تمثيله في الذاكرة
بمصفوفة كثيفة. قد تكون هذه المصفوفة كبيرة جدًا، بالإضافة إلى تكلفة إجراء عملية ضرب المصفوفة الكاملة في كل تكرار للخوارزمية، مما قد يؤدي إلى أوقات تشغيل طويلة للغاية. من ناحية أخرى،
ستنتج نواة KNN مصفوفة نادرة أكثر ملاءمة للذاكرة
والتي يمكن أن تقلل بشكل كبير من أوقات التشغيل.

.. rubric:: أمثلة

* :ref:`sphx_glr_auto_examples_semi_supervised_plot_semi_supervised_versus_svm_iris.py`
* :ref:`sphx_glr_auto_examples_semi_supervised_plot_label_propagation_structure.py`
* :ref:`sphx_glr_auto_examples_semi_supervised_plot_label_propagation_digits.py`
* :ref:`sphx_glr_auto_examples_semi_supervised_plot_label_propagation_digits_active_learning.py`

.. rubric:: المراجع

.. [2] Yoshua Bengio، Olivier Delalleau، Nicolas Le Roux. في التعليم شبه الخاضع للإشراف (2006)، الصفحات 193-216

.. [3] Olivier Delalleau، Yoshua Bengio، Nicolas Le Roux. فعال
غير معلم وظيفة الاستقراء في التعليم شبه الخاضع للإشراف. AISTAT 2005
https://www.gatsby.ucl.ac.uk/aistats/fullpapers/204.pdf