Machine Learning with Python – مقدمة عن تعلم الآلة

المبادئ العشرة

إنَّ مبادئ كل فن عشرة … الحد والموضوع ثم الثمرة

وفضله ونسبة والواضع … والاسم الاستمداد حكم الشارع

فمسائل والبعض بالبعض اكتفى … ومن درى الجميع حاز الشرفا

قد اشتهر قول محمد بن علي الصبان (توفي 1206هـ) بذكر المبادئ العشرة لأي فن.

تُفصل هذه الأبيات الجوانب الأساسية لأي علم كالتالي:

الحد: تعريف الفن الذي يميزه عن غيره، سواء كان تعريفاً جامعاً مانعاً أو وصفياً.
الموضوع: المجال الذي يبحث فيه العلم (مثلاً: الكلمات هي موضوع علم النحو).
الثمرة: الغاية والفائدة المرجوة من تعلم هذا العلم.
النسبة: علاقة هذا الفن بغيره من الفنون (هل هو مباين لها، أم أصل لها، أم فرع؟).
الفضل: مكانة العلم وشرفه مقارنة بالعلوم الأخرى.
الواضع: أول من دوّن العلم أو وضع قواعده الأساسية.
الاسم: ما يُعرف به العلم وما اشتهر به من أسماء.
الاستمداد: المصادر التي يُشتق منها العلم ويستقي منها أحكامه وقواعده.
حكم الشارع: الحكم الفقهي لتعلمه (فرض عين، فرض كفاية، مندوب، إلخ).
المسائل: القضايا والقواعد الكلية التي تُبحث داخل العلم.

وفيما يلي بيانُها في علم تعلم الآلة.

1. الـحَدُّ (التعريف)

علم يبحث في قدرة المنطق الآلي على استخراج الأنماط المفيدة من البيانات تلقائيًّا.
توم ميتشيل: البرنامج يتعلم من الخبرة (\(E\)) للمهام (\(T\)) بمقياس (\(P\))، إذا تحسن الأداء في (\(T\)) بقياس (\(P\)) مع زيادة (\(E\)).

2. المَوْضُوع

البيانات (Data)
الأنماط (Patterns)
العلاقة بين المدخلات (\(X\)) والمخرجات (\(Y\))

3. الـثَّمَرَة

أتمتة الاستدلال
التعميم (Generalization)
حل المشكلات المعقدة (الرؤية، الكلام، التفاعل)

تتلخص ثمرته في أتمتة الاستدلال؛ فبينما كان الإنسان قديماً يستنبط القوانين يدوياً، أصبح تعلم الآلة هو الأداة التي تستنبط القوانين من بحور البيانات المتلاطمة (Big Data). ويتجلى ذلك في التعميم (Generalization)؛ أي بناء أنظمة قادرة على اتخاذ قرارات دقيقة تجاه بيانات لم ترها من قبل، وتوفير حلول للمشكلات التي يعجز المنطق البرمجي التقليدي (If-Else) عن حلها، مثل التعرف على الوجوه والأصوات والكلام والترجمة والتحدث والتحرك والتفاعل مع البيئة المحيطة المليئة بالمتغيرات.

4. الـفَضْل

محرك الثورة التقنية الحالية.
استعصاء المهمة على الصياغة الإجرائية.
الحاجة للتكيف المستمر.

هو محرك الثورة التقنية الحالية.

وتتحتم الاستعانة به في سياقين لا تفي بهما البرمجة القواعدية الجامدة:

أولهما: استعصاء المهمة على الصياغة الإجرائية، ويتمثل ذلك في عجز الإنسان عن تفكيك أسرار ممارساته الفطرية —كالإدراك البصري والكلامي— ليصيغها في قواعد رقمية، أو في ضخامة البيانات التي تفوق بطبيعتها حدود الاستيعاب والتحليل البشري.

وثانيهما: الحاجة للتكيف المستمر؛ فبينما تتسم البرمجيات التقليدية بالجمود حيال المتغيرات، يمنح تعلم الآلة الأنظمة قدرةً ذاتية على تطويع سلوكها وفقاً للخبرة المكتسبة والمستجدات المحيطة، محولاً إياها من أدوات ثابتة إلى كيانات مرنة تتطور بتطور التجربة.

5. الـنِّسْبَة

للذكاء الاصطناعي: جزء من كل.
للإحصاء: تداخل عميق (التعلم الإحصائي).
للتعلّم العميق: فرع (شبكات عصبية).

6. الاسْـتِمْدَادُ

الرياضيات (جبر خطي، تفاضل، تحسين)
الإحصاء والاحتمالات
علوم الحاسب (خوارزميات)

7. الـوَاضِع

تراكم معرفي وليس شخصًا واحدًا:

التأسيس (1950): اختبار تورينج.
المنطق (1956): الأنظمة الخبيرة.
البيانات (1990s): الإحصاء وتعلم الآلة.

8. الاسْم

تعلم الآلة (Machine Learning)
التعلم الإحصائي (Statistical Learning) (أكاديميًا)
استخراج الأنماط / التنقيب في البيانات

9. المَـسَائِل

ثلاثة أقسام حسب إشارة التعلم:

التعلم الإشرافي (Supervised)
التعلم اللا إشرافي (Unsupervised)
التعلم بالتعزيز (Reinforcement)

القسم الأول: التعلم الإشرافي

البيانات موسومَة (Labeled)
أمثلة:
- حالة الطقس
- تنظيم النشر
- تصنيف الصور

حيث تكون البيانات موسومَة (Labeled Data)؛ فيتم تدريب النموذج على مدخلات معلومة النتائج؛ ليتعلم رسم خريطة بين المدخل والمخرج تلقائيًّا.

مثل حالة الطقس: التنبؤ بحالة الطقس غدًا بناء على بيانات تاريخية مسجَّلة للمنطقة الجغرافية.
مثل تنظيم النشر: عبر برمجيات تتعلم تمييز المنشورات المزعجة والمسيئة لتمنعها من الظهور.
ومثل تصنيف الصور (التعلم العميق): عبر أنظمة تتعرف على السمات المميزة للأشياء أو الأوجه أو الأماكن لتحديدها من الصور في كاميرات الفيديو.

القسم الثاني: التعلم اللا إشرافي

لا يوجد وَسم صريح.
كشف النمط الكامن / التكتل.
أمثلة:
- محركات البحث
- التحليل التسويقي
- مشابهة الصور

القسم الثالث: التعلم التعزيزي

التفاعل مع البيئة (ثواب/عقاب).
أمثلة:
- أنظمة التوصية
- الألعاب المعقدة
- الروبوتات

وهو نوع من التعلم يقوم على التفاعل مع البيئة المحيطة؛ وبناءً على هذا التفاعل تُرصَدُ الإشارة وتُفسَّر بالسلب أو الإيجاب؛ وينبني على ذلك تعزيز السلوك أو تثبيطه.

مثل أنظمة التوصية: حيث يتم رصد إشارة الإعجاب أو عدمه من المستخدمين (البيئة) بناءً على توصيات الخوارزمية، فيتم تفسيرها بالسلب والإيجاب لتحسين التوصيات القادمة.
ومثل الألعاب المعقدة: تحسين الأداء في ألعاب مثل الشطرنج وGo وDota 2.
ومثل الروبوتات: الذراع الآلية، الجسم الآلي، أو المركبة أو الطائرة الآلية.

وكل ما سبق من الثمرات يتحقق بمجموع الأقسام لا بمفردها، بل وباستعمال القواعد وهندسة البرمجيات معها.

مثال: الترجمة بالقواعد الإجرائية

يتطلب المبرمج كتابة كل قاعدة يدوياً.
“إذا حدث هذا، افعل ذاك”.
صعب التعامل مع الاستثناءات.

الترجمة بالقواميس والقواعد اللغوية

في هذا النموذج، يقوم المبرمج بدور اللغوي. حيث يجب عليه كتابة كل قاعدة نحوية وكل مفردة يدوياً. إذا لم تكن القاعدة مكتوبة في الكود، فلن يفهمها النظام.

def rule_based_translate(sentence):
    # Dictionary (Lexicon)
    dictionary = {
        "the": "el",
        "cat": "gato",
        "is": "está", 
        "black": "negro",
        "house": "casa"
        # ...
    }
    
    words = sentence.lower().split()
    translated = []
    
    for i, word in enumerate(words):
        # Rule 1: Direct word-for-word mapping
        trans_word = dictionary.get(word, word)
        
        # Rule 2: Spanish Adjective Placement 
        # (e.g., "black cat" -> "gato negro")
        if word == "black" and i > 0 and words[i-1] == "cat":
            # Swap previous word with current translation
            # ...
            pass
        else:
            # ...
            pass

        # Rule 3: ...
        
        # Rule 4: ...

    return " ".join(translated)

print(rule_based_translate("the black cat"))
                  # Output: el gato negro

يتطلب هذا النوع جهداً بشرياً هائلاً لصياغة آلاف القواعد لكل لغة، ويصعب عليه التعامل مع الاستثناءات اللغوية.

مثال: الترجمة الإحصائية

نعطيه بيانات متوازية (جمل وترجمتها).
يستنتج الأنماط والاحتمالات وحده.
أسهل في الصيانة والتكيف.

الترجمة الإحصائية بالبيانات المتوازية

هنا يبدأ تعلم الآلة. نحن لا نعطيه قواعد بل نعطيه بيانات متوازية (جمل مقابل ترجتمها)، وهو يستنتج الأنماط والاحتمالات وحده.

from collections import defaultdict, Counter

# SMT: Learning from data (Parallel Corpus)
parallel_data = [
    ("the cat", "el gato"),
    ("the house", "la casa"),
    ("the black cat", "el gato negro"),
    ("the black house", "la casa negra")
]

def train_smt(data):
    # Count occurrences of source-target word pairs
    counts = defaultdict(Counter)
    for src, tgt in data:
        for s_word in src.split():
            for t_word in tgt.split():
                counts[s_word][t_word] += 1
    
    # Calculate Probability: P(target | source)
    model = {}
    for s_word, t_variants in counts.items():
        total = sum(t_variants.values())
        model[s_word] = {t: count / total for t, count in t_variants.items()}
    return model

def smt_translate(sentence, model):
    words = sentence.lower().split()
    # Pick the target word with the highest probability
    return " ".join([max(model[w], key=model[w].get) for w in words])

model = train_smt(parallel_data)
print(smt_translate("the black cat", model))
            # Output: el gato negro

ملخص الفرق

الميزة	القواعد (RBMT)	الإحصاء (SMT)
المصدر	علماء لغويات	بيانات ضخمة
المنطق	“إذا.. افعل”	احتمالات وأنماط
الصيانة	صعبة	سهلة

ملخص الفرق في جدول

الميزة	القواعد (RBMT)	الإحصاء (SMT)
المصدر الأساسي	علماء لغويات وقواميس	بيانات ضخمة (Big Data)
المنطق	“إذا حدث هذا، افعل ذاك”	حساب احتمالات وأنماط
الصيانة	صعبة (تعديل القواعد يدوياً)	سهلة (إضافة بيانات أكثر فقط)

ومن ميزات تعلم الآلة: التكيُّف مع تغير اللغة بل مع استعمالات الألفاظ في السياقات المختلفة مع اختلاف الأزمنة.

Mitchell, Tom. 2015. "Introduction to Machine Learning (10-601)". Carnegie Mellon University. 2015. https://www.cs.cmu.edu/~ninamf/courses/601sp15/lectures.shtml.

Shalev-Shwartz, Shai, و Shai Ben-David. 2014. Understanding Machine Learning: From Theory to Algorithms. Cambridge University Press. https://doi.org/10.1017/cbo9781107298019.