בתחילת השבוע הגישו הקומיקאית שרה סילברמן ויוצרים נוספים תביעה ייצוגית כנגד מטא (Meta) ו־OpenAI בטענה ש"עשו שימוש" ביצירותיהם המוגנות בזכויות יוצרים לשם אימון מודלי השפה שלהן. זו כמובן אינה התביעה הראשונה בעניין זה, אך התכיפות ההולכת ועולה שלהן מדגישה את המרכזיות של עניין זכויות היוצרים בתוך הדיון על ה־AI הגנרטיבי.
נדמה שה־AI הגנרטיבי (Generative AI) פרץ לחיינו לאחרונה בסערה וכבר כיום חלק לא מבוטל מאיתנו עושים בו שימוש, תוך שרובנו לא מתחשבים בספקטרום רחב של משמעויות, החל מהשלכות משפטיות (פרטיות, סודיות, אפליה, לשון הרע, זכויות יוצרים ועוד), דרך השלכות כלכליות (מבנה שוק העבודה, משרות שייעלמו אל מול כאלו שייווצרו) והשלכות ביטחוניות (דלף של מידע מסווג), וכלה בהשלכות חברתיות (למשל ההשפעה על מידת האמון בין בני אדם, התגברות תופעות של הונאה וזיוף). כל הסעיפים האלה הם כבדי משקל, אך בטור זה אכוון את הפנס להיבטים של זכויות יוצרים בלבד.
מערכת Gen-AI דוגמת ChatGPT לטקסטים, או midjourney לתמונות, היא מודל שעובר תהליך "לימוד", שבו מזינים סט עצום ממדים של חומרים (Data Sets), דוגמת טקסטים או תמונות, והאלגוריתם מייצר מטריצה רב־ממדית של הקשרים בין מילים/אובייקטים ממקורות שונים, וייחוס משקלות הסתברותיות לכל הקשר - מה שיאפשר לו בהמשך לצפות אילו מרכיבים (אותיות, מילים, פיקסלים) יחברו יחדיו ובאיזה אופן על מנת לתת תוצר שהוא טקסט קוהרנטי או תמונה הגיונית.
הטקסטים/תמונות ששימשו ב"לימוד" המודל (אם המודל מומש כמו שצריך) אינם נשמרים במערכת לאחר שעברו את הניתוח האמור, וחלקם של החומרים הללו מן הסתם מוגן בזכויות יוצרים.
האומנם הפרה?
בניגוד לתפיסה הרווחת, "שימוש" בחומר מוגן זכויות יוצרים אינו גורר בהכרח הפרה של זכויות היוצרים, אלא רק שימושים ספציפיים המפורטים בחוק מהווים הפרה כאמור.
זכות היוצרים המובהקת ביותר שניתן לחשוד בהפרתה, בשלב לימוד המודל היא זכות ה"העתקה". מבחינה טכנית, תהליך הלימוד כנראה מחייב העתקה של הקובץ שעליו מצוי הטקסט או התמונה אל תוך המודל, על מנת שהאלגוריתם יוכל ללמוד אותו, מכאן שהתשובה הפשוטה תהיה כן, יש הפרה של זכות ההעתקה. מנגד, ניתן לטעון שהמודל, מבחינה מהותית, רק "קורא" את הטקסט והתמונה ומסיק מהם מסקנות סטטיסטיות, ולא שומר את התוכן, בדיוק כשם שאנו בני האדם עושים, ובמובן מהותי זה אין "העתקה".
איזו הגנה יש לחברה כמו OpenAI אם אכן ייקבע כי התקיימה העתקה של חומר מוגן בזכויות יוצרים במסגרת הליך ה"לימוד" של החומר? ההגנה הפופולרית שבה נהוג לדון בישראל ובארה"ב הינה "הגנת השימוש ההוגן" שמזריקה לדיון שיקולי מדיניות המצדיקים פעילויות שנחשבות כמקדמות מטרות מוצדקות כמו לימוד עצמי, מחקר, ביקורת ועוד.
בחירה ראשונה ומשמעותית שתצטרך כל מדינה לבצע היא האם לפטור את יצרני המודלים של AI גנרטיבי מן ההפרות הגלומות (או לא) בהליך לימוד המודל. אם ייקבע שאין פטור תיפתח הדלת למנגנונים של רישוי ותגמול של היוצרים שיצירותיהם שימשו בהליך לימוד המודל, נושא שיכול להתברר כסבוך ביותר לביצוע, עד כדי גזר דין מוות לכלים אלו.
ייתכן שהפתרונות לכך יבואו בתצורה דומה לתצורה של ארגונים לניהול זכויות יוצרים (דוגמת אקו"ם והפדרציה הישראלית לתקליטים וקלטות בישראל ו־ASCAP בארה"ב), אשר יחלקו "רישיונות שמיכה" ליצרני מודלי AI גנרטיבי, ויחלקו את דמי הרישיון בין היוצרים החברים בארגון.
מהי יצירה
התוצרים של מערכות ה־AI הגנרטיבי ניחנות במידה כזו של "יצירתיות", כך שאם אדם היה יוצר אותן באופן ישיר, בוודאי שלא הייתה עולה שאלה שהוא זכאי בגינן להגנת זכויות יוצרים. אבל ל"יצירות" אלו אין "יוצר" (לפחות לא במובן הקלאסי), אז האם תוצרים של Gen-AI הם "יצירות" בנות הגנת זכות יוצרים? אולי בכל זאת יש להן "יוצר"?
האם ניתן להתייחס למפתחי המודל (Open AI, או עובדיה, במקרה של ChatGPT) כאל ה"יוצר" של התוצרים של המודל, ואז לומר שהם אלו שיש להם את זכויות היוצרים בתוצרים? נראה שאין לכך מקום. הם לכל היותר יצרו את "המכונה" שיודעת להפיק "יצירות", אבל הם לא היו מעורבים באופן ישיר ביצירת ה"יצירה" הספציפית.
אז אולי המשתמש שמזין פרומפט (Prompt) למערכת הוא בגדר "יוצר" של התוצר שנוצר כתוצאה מהפרומפט? אומנם יש קשר מסוים של סיבה ותוצאה בין הפרומפט לבין התוצר, ואולי אפילו הפרומפט עצמו הוא יצירה (ספרותית) בת הגנה שה"יוצר" שלה הוא המשתמש, אבל קשה לומר שהטקסט, או התמונה, או הלחן, שהם התוצר של השימוש במערכת ה־AI הגנרטיבית, נוצרו הודות ל"יצירתיות" של כותב הפרומפט.
נראה שהמרחק גדול מדי וגם כאן אין שאר רוח יצירתית שהיא זו שהובילה למאפיינים ה"יצירתיים" של יצירה ספציפית. זה מרגיש כאילו נתייחס לאדם שנכנס הביתה והדליק את המתג כמי ש"יצר" את האור שנדלק.
אולי כלל היוצרים של היצירות המוגנות ששימשו בלימוד המודל הם גם היוצרים במשותף של כלל התוצרים שמפיק המודל? זה דווקא נשמע פתרון רומנטי החותר לצדק, אבל הוא לא נותן כלום, שהרי איך בדיוק נאתר את כולם? ואיך נבקש את הסכמת כולם לעשות שימוש בכל תוצר? ובכלל האם ההתערבות של המודל עצמו ו"היצירתיות" שלו בתהליך יצירת התוצרים לא ניתקה את הקשר ליוצרים של יצירות המקור ששימשו בלימוד המודל? נראה שהתשובה חיובית.
נראה שנותרנו בלי מועמדים, בשר ודם, להיות ה"יוצרים" של התוצרים של מערכות ה־AI הגנרטיבי. אז אולי מערכות ה־AI עצמן הן ה"יוצר"?... הגם שכאן זה כבר מרגיש שהדיון מתחיל להתנתק מחללית האם, רשם זכויות היוצרים האמריקאי יודע לספר (בפרסום ממרץ 2023 העוסק בהנחיות לרישום זכויות יוצרים המערבות AI גנרטיבי) שפניות רבות אליו בעת האחרונה ציינו מערכות AI גנרטיבי כ"יוצר", או "יוצר במשותף" (Co-Author), של היצירות שאותן ביקשו לרשום...
דומה שהמסקנה היא שבהיעדר "יוצר" אין "יצירה" בת הגנה על פי דיני זכויות היוצרים הקיימים במרבית מדינות העולם.
עולם חדש
ככל שההחלטה שתתקבל תהיה שלא לבוא חשבון עם יצרני מערכות ה־AI הגנרטיבי בגין ההפרות של זכויות יוצרים בחומרים ששימשו בלימוד המודלים הקיימים כיום, אזי בעתיד הדיון ממילא יתייתר, שכן כאשר יהיו מספיק חומרים יצירי AI גנרטיבי, שבהם כאמור לא יהיו זכויות יוצרים, ממילא אלו יהיו החומרים שישמשו ב"לימוד" המודלים העתידים לבוא, ואז נתעורר לעולם שהוא כמעט נטול זכויות יוצרים.
עכשיו תחזיקו חזק ודמיינו עולם שבו אין זכויות יוצרים במוזיקה, בטקסט, בתמונות ובקוד מחשב המסתובבים במרחב חיינו האישיים והעסקיים.
נראה שהמחוקקים והפוסקים לעתיד יצטרכו לתת דעתם בשאלה אילו זכויות משפטיות ראוי לייצר, ועבור מי, על מנת שלא לצנן (שלא לומר על מנת לעודד) את המשך התפתחותו של ענף מערכות ה־AI הגנרטיבי.
טקסט זה נכתב על ידי אדם בשר ודם. אולי.
הכותב, עו"ד אייל אורן, שותף במחלקת ההייטק - שבלת עורכי דין