OpenAI משיקה: הפיצ'ר החדש שמייצר תמונות מושלמות תוך שניות

OpenAI השיקה השבוע יכולת חדשה ליצירת תמונות מתוך ממשק השיחה של ChatGPT. הפיצ'ר החדש, שנקרא Images in ChatGPT, זמין מהיום לכלל המשתמשים- כולל אלו המנויים על הגרסה החינמית. לדברי החברה, התכונה מאפשרת ליצור תמונות ישירות במהלך שיחה עם הבינה המלאכותית, מבלי לעבור לכלי נפרד.

היכולת החדשה מבוססת על GPT-4o, מודל אומנימודלי המסוגל להבין וליצור טקסט, תמונה, אודיו ווידאו. לדברי גבריאל גו, ראש תחום המחקר ב-OpenAI, מדובר בקפיצת מדרגה משמעותית לעומת הדור הקודם, בעיקר ביכולת של המודל לשמור על עקביות בין אובייקטים, צבעים ותכונות, שמכונות "binding".

לדוגמה, רוב מחוללי התמונות הקיימים מתקשים ליצור תמונה שבה מופיעים מספר עצמים בעלי צבעים וצורות שונים, מבלי לשבש את ההוראות. המערכת החדשה, לדבריו, מצליחה לשמור על דיוק ביצירת תמונות עם 15–20 אובייקטים שונים, ללא בלבול בין הפרטים.

אחד השיפורים הבולטים שהוצגו הוא יכולת שיפור בהצגת טקסטים בתוך תמונות – תחום שבו כלים קיימים כמו DALL-E או Midjourney נוטים לייצר טקסטים שגויים או חסרי משמעות. גו הסביר כי הצוות השקיע חודשים רבים בשיפור התכונה הזו, וכיום ניתן לקבל טקסטים קריאים ושמישים ברוב התמונות, למעט טקסטים קטנים במיוחד.

המערכת החדשה פועלת בטכניקה שונה מזו של רוב מחוללי התמונות: במקום ליצור את כל התמונה בבת אחת, היא פועלת באופן אוטורגרסיבי, כמו בכתיבה- כלומר, משמאל לימין ומלמעלה למטה. ייתכן שזה מה שתורם לשיפור בדיוק וביכולת להבין הקשרים מורכבים. במסגרת הדגמות לעיתונאים, הוצגו תמונות כמו איור מדויק של ניסוי המנסרה של ניוטון, פוסטרים עם טקסטים ללא טעויות, קומיקס עם דמויות עקביות ומדבקות עם רקע שקוף לשימוש גרפי.

אייזק ניוטון. כך היה נראה היום בניסוי המנסרה (צילום: OpenAI)

לדברי ג’קי שאנון, ראש תחום המוצרים הרב-מודליים ב-OpenAI, המערכת "מביאה עמה את כל הידע המצטבר של העולם", ולכן כשמשתמש מבקש תמונה של ניסוי המנסרה של ניוטון, אין צורך להסביר מה זה- המודל כבר יודע. שאנון הוסיפה כי למרות שהמערכת דורשת יותר זמן להפיק תמונות מאשר הכלים הקיימים, האיכות והדיוק מפצים על השהות הנוספת. "האיכות, הידע העולמי והיכולת- שווים את ההמתנה של עוד כמה שניות", אמרה.

במקביל להשקה, נשאלו נציגי OpenAI לגבי אמצעי ההגנה שהוטמעו במערכת, לאור פרשות כמו יצירת deepfakes מיניים או תמונות מזויפות של דמויות ציבוריות בכלים אחרים. לדברי החברה, הוטמעו מנגנוני חסימה שמונעים הסרה של סימני מים, יצירת פורנוגרפיה או תמונות אלימות ולא חוקיות. למרות שהתמונות אינן כוללות סימון חזותי ברור לכך שנוצרו על ידי בינה מלאכותית, הן כוללות מידע מוסתר (C2PA metadata) שמזהה את מקורן, וחברת OpenAI שומרת לעצמה כלים פנימיים לאיתור התמונות שנוצרו.

לבסוף, החברה מדגישה כי התמונות שנוצרות שייכות למשתמש וניתן להשתמש בהן במסגרת תנאי השימוש. שאנון סיכמה: "שום מערכת לא מושלמת, אבל אנו משפרים כל הזמן את מנגנוני ההגנה. זהו רק שלב ראשון. אנחנו במעריב השתעשענו בפיצ'ר החדש, וביקשנו ממנו ליצור תמונה ובה ראש הממשלה הראשון של ישראל, דוד בן גוריון, ליד מגדלי עזריאלי. מה דעתכם? כתבו לנו בתגובות.