"הכיוון הוא שנעשה כמה שיותר אבסטרקציה לרצונות שלנו כבני אדם - ונפשט את המשימות", מדגיש ד"ר גל דלאל, מדען מחקר בכיר של חברת NVIDIA. מאז הקמתה בשנת 1993 אנבידיה הייתה חלוצה בתחום המחשוב המואץ, והמעבדים הגרפיים שלה אחראים במידה רבה לצמיחה של שוק הגיימינג העולמי, הנעת עולם הבינה המלאכותית וכמובן הזנקת המטאוורס.
אנבידיה היא כיום חברת פלטפורמות מחשוב מקצה לקצה, עם פתרונות בקנה מידה של מרכזי נתונים המעצבים מחדש את התעשייה. ד"ר דלאל היה בין 50 העובדים המקוריים שעבדו במחלקת המחקר של אנבידיה בישראל, לפני שהרחיבה את פעילותה בארץ. "המחקר שלנו עוסק בתחום למידה מחיזוקים (Reinforcement Learning)", הוא מסביר. "בינה מלאכותית זה מושג רחב, אבל בתחום למידת המכונה אפשר לסווג אותו לשני תחומים: פעולה חד־פעמית מול אינטראקציה מתמשכת.
"דוגמה לפעולה חד־פעמית זה לבקש מהמכונה לצייר תמונה או לזהות בן אדם בווידיאו. אתה אומר לו תעשה את אותה פעולה שוב ושוב. מנגד, דוגמה לאינטראקציה מתמשכת זה צ'ט בוטים כמו הצ'ט GPT או רכב אוטונומי. תהליך של אינטראקציה מתמשכת דורש תכנון וחשיבה על השלכות עתידיות. למידה בחיזוקים נועדה לפתור בעיות שעולות באינטראקציה מתמשכת מול AI".
המחלקה של ד"ר דלאל פועלת בתחומים שונים בעולם הבינה המלאכותית, מהשפעות עסקיות ועד המגע מול הצרכן. עם זאת, הוא מספר כי הפעם הראשונה שבה הבחין עד כמה ה־AI רגיש לדרך שבה הוא מתוכנן הייתה עוד כשעסק בלמידה וחיזוקים ברכב האוטונומי. "שמנו לב שיש לנו השפעה כיוצרים, שלפעמים סותרת את מה שרוצה משתמש הקצה", הוא אומר. דלאל מסביר שמתכננים רכב אוטונומי לדוגמה נותנים לו על בסיס סט חוקים בסיסי ללמוד בסימולטור איך כדאי לו להתנהל.
"רכב אוטונומי ינצל לרעה את החוקים שנתת לו, בצורה שלא חשבת עליהם", הוא מוסיף. "אם תרצה שהוא יגיע מהר ליעד, להימנע ממרחק מסוים מרכבים אחרים ושלא יזגזג בין נתיבים - אתה צריך לתת לו ניקוד חיובי או שלילי על כל אחת מהפעולות האלה, זה למידה מחיזוקים.
האלגוריתמיקה הזאת מאפשרת לנו לתת לו ללמוד מה הפעולות הכי טובות שהוא יכול לעשות כדי להיות על המסלול הכי טוב". דלאל מוסיף כי כשזה מגיע למוצרי בינה מלאכותית הפועלים מול הצרכן, כמו צ'ט בוטים למיניהם או נותני שירות, קשה יותר לחוקרים להגיע להצלחות.
"כדי לעשות למידה מחיזוקים צריך להנדס מראש את הניקוד, ובשביל זה צריך לדעת מה הבן אדם רוצה או לא רוצה, את ההעדפות שלו. בשביל שהאלגוריתם יהיה כמה שיותר מדויק אתה צריך לאסוף מידע לכל אורך האינטראקציות מול הבינה המלאכותית, במיוחד אלה שנקטעו (נהג שלוקח שליטה על רכב אוטונומי או יוזר שנטש משחק או אפליקציה).
הצוות של ד"ר דלאל בנה אלגוריתם שמשחזר את ההליך ומשווה את הניקוד של המשתמש על פי החוויה לניקוד המקורי שניתן לסיטואציות על ידי המהנדסים. "אנחנו רואים לפעמים פער גדול בין מה שאנחנו חשבנו על הסיטואציה לבין מה שהמשתמשים חשבו. הניקוד מורכב מהפרס שהוא חיובי והקנס. הקנס זה חוסר השביעות של המשתמש, וזה נתון שמתעדכן כל הזמן בלייב על ידי צבירת דאטה".