לוגו זפירנט

ראיון עם מנהלת תוכנת Nvidia, קארי בריסקי

תאריך:

ראיון אישי ועידת טכנולוגיית ה-GPU של Nvidia הסתיימה בשבוע שעבר, והביאה בשורה על שבבי Blackwell של החברה ועל נפלאות הבינה המלאכותית, עם כל חומרת ה-GPU שנרכשה ביוקר שמשתמע מכך.

כזה הוא הבאזז סביב החברה שמחיר המניה שלה מפלרטט עם שיא שיא, בהתבסס על התפיסה שאפשר לעשות מאמצים יצירתיים רבים יותר מהר אם לא טוב יותר עם האוטומציה שמתאפשרת על ידי מודלים של למידת מכונה.

זה עדיין נבדק בשוק.

פעם ג'ורג' סנטיאנה כתב: "מי שאינו יכול לזכור את העבר נידון לחזור עליו". זה ביטוי שחוזר על עצמו לעתים קרובות. עם זאת, זיכרון של דברים מהעבר לא באמת הבדיל בין דגמי AI. הם יכולים לזכור את העבר אבל הם עדיין נידונים לחזור עליו לפי דרישה, לפעמים בצורה שגויה.

למרות זאת, רבים נשבעים ב-AI הכל יכול, במיוחד אלה שמוכרים חומרת AI או שירותי ענן. Nvidia, בין היתר, מהמרת עליו בגדול. כך הקופה ערך ביקור קצר בכנס GPU כדי לראות על מה כל המהומה. זה בהחלט לא היה על ברים לימון שהוגשו באולם התצוגה ביום חמישי, שרבים מהם סיימו את ההנפקה הציבורית הראשונית שלהם ללא גמר בפחי רצפת התצוגה.

שיחה מרתקת הרבה יותר הקופה היה עם קארי בריסקי, סגן נשיא לניהול מוצר עבור ערכות פיתוח תוכנה בינה מלאכותית ו-HPC ב-Nvidia. היא עומדת בראש ניהול מוצרי תוכנה עבור דגמי היסוד של החברה, הספריות, ה-SDKs וכעת מיקרו-שירותים העוסקים בהדרכה והסקה, כמו ההודעה החדשה שהוכרזה אוֹתוֹ שירותי מיקרו והמבוססים יותר נמו מסגרת פריסה.

הקופה: איך חברות הולכות לצרוך את המיקרו-שירותים האלה - בענן, בשטח?

בריסקי: זה בעצם היופי שבסיבה שבנו את ה-NIM. זה די מצחיק להגיד "ה-NIMs." אבל התחלנו את המסע הזה מזמן. אנחנו עובדים בהסקת מסקנות מאז שהתחלתי - אני חושב שזה היה TensorRT 1.0 כשהתחלתי את 2016.

במהלך השנים הגדלנו את ערימת ההסקות שלנו, למדנו יותר על כל סוג אחר של עומס עבודה, החל בראייה ממוחשבת ומערכות ממליצים עמוקים ודיבור, זיהוי דיבור אוטומטי וסינתזה של דיבור וכעת מודלים גדולים של שפות. זה היה מחסנית ממש ממוקדת מפתחים. ועכשיו, כשארגונים [ראו] את OpenAI ו-ChatGPT, הם מבינים את הצורך שדגמי השפה הגדולים האלה יפעלו ליד הנתונים הארגוניים שלהם או באפליקציות הארגוניות שלהם.

ספק שירותי הענן הממוצע, עבור השירותים המנוהלים שלהם, היו להם מאות מהנדסים שעבדו על טכניקות הסקה ואופטימיזציה. חברות לא יכולות לעשות את זה. הם צריכים לקבל את הזמן לערך מיד. זו הסיבה שהכנסנו את כל מה שלמדנו במהלך השנים עם TensorRT, מודלים של שפות גדולות, שרת ה-Triton Inference שלנו, API סטנדרטי ובדיקות תקינות. [הרעיון הוא להיות] מסוגל לקלוט את כל זה כדי שתוכל להגיע מאפס לנקודת קצה של מודל שפה גדול תוך פחות מחמש דקות.

[בקשר למרכז נתונים מקומי לעומת ענן], הרבה מהלקוחות שלנו הם ענן היברידי. הם העדיפו מחשוב. אז במקום לשלוח את הנתונים לשירות מנוהל, הם יכולים להפעיל את המיקרו-שירות קרוב לנתונים שלהם והם יכולים להפעיל אותו היכן שהם רוצים.

הקופה: איך נראית ערימת התוכנה של Nvidia עבור AI מבחינת שפות תכנות? האם זה עדיין במידה רבה CUDA, Python, C ו-C++? האם אתה מחפש במקומות אחרים מהירות ויעילות רבה יותר?

בריסקי: אנחנו תמיד חוקרים היכן שמפתחים משתמשים. זה תמיד היה המפתח שלנו. אז מאז שהתחלתי ב-Nvidia, עבדתי על ספריות מתמטיקה מואצות. ראשית, היית צריך לתכנת ב-CUDA כדי לקבל מקביליות. ואז היו לנו ממשקי API של C. והיה לנו Python API. אז זה על לקחת את הפלטפורמה לאן שהמפתחים נמצאים. כרגע, מפתחים רק רוצים להגיע לנקודת קצה ממש פשוטה של ​​ממשק API, כמו עם פקודת curl או פקודת Python או משהו דומה. אז זה צריך להיות סופר פשוט, כי זה בערך המקום שבו אנחנו פוגשים את המפתחים היום.

הקופה: CUDA כמובן משחק תפקיד עצום בהפיכת חישוב GPU ליעיל. מה Nvidia עושה כדי לקדם CUDA?

בריסקי: CUDA הוא הבסיס לכל ה-GPUs שלנו. זהו GPU התומך ב-CUDA וניתן לתכנות ב-CUDA. לפני כמה שנים, קראנו לזה CUDA-X, כי היו לך שפות ספציפיות לתחום. אז אם יש לך הדמיה רפואית [אפליקציה], יש לך cuCIM. אם יש לך זיהוי דיבור אוטומטי, יש לך מפענח חיפוש אלומה מואץ של CUDA בסוף שלו. אז יש את כל הדברים הספציפיים האלה עבור כל סוג אחר של עומס עבודה שהואצה על ידי CUDA. בנינו את כל הספריות המיוחדות הללו במהלך השנים כמו cuDF ו cuML,וכן-זה-ו-זה. כל ספריות ה-CUDA הללו הן הבסיס למה שבנינו במהלך השנים ועכשיו אנחנו קצת בונים על זה.

הקופה: איך Nvidia מסתכלת על שיקולי עלות מבחינת האופן שבו היא מעצבת את התוכנה והחומרה שלה? עם משהו כמו Nvidia AI Enterprise, זה 4,500 $ ל-GPU בכל שנה, וזה לא מבוטל.

בריסקי: ראשית, עבור חברות קטנות יותר, תמיד יש לנו את ההקמה תכנית. אנחנו תמיד עובדים עם לקוחות - ניסיון חינם של 90 יום, האם זה באמת בעל ערך עבורך? האם זה באמת שווה את זה? לאחר מכן, כדי להפחית את העלויות שלך כשאתה קונה את זה, אנחנו תמיד מייעלים את התוכנה שלנו. אז אם היית קונה 4,500 דולר למעבד לשנה לרישיון, ואתה פועל על A100, ואתה רץ על H100 מחר, זה אותו מחיר - העלות שלך ירדה [ביחס לתפוקה שלך]. אז אנחנו תמיד בונים את האופטימיזציות האלה ואת העלות הכוללת של הבעלות והביצועים בחזרה לתוכנה.

כשאנחנו חושבים גם על אימון וגם על מסקנות, האימון אמנם לוקח קצת יותר, אבל יש לנו את הקופיגורטורים האוטומטיים האלה כדי להיות מסוגלים לומר, "כמה נתונים יש לך? כמה מחשוב אתה צריך? כמה זמן אתה רוצה שזה ייקח?" אז אתה יכול לקבל טביעת רגל קטנה יותר של מחשוב, אבל זה יכול לקחת יותר זמן לאמן את המודל שלך ... האם תרצה לאמן אותו תוך שבוע? או שתרצה לאמן אותו ביום? וכך אתה יכול לעשות את ההחלפות האלה.

הקופה: מבחינת הבעיות הנוכחיות, האם יש משהו מסוים שתרצה לפתור או האם יש אתגר טכני שאתה רוצה להתגבר עליו?

בריסקי: כרגע, זה מונחה אירועים סְחָבוֹת [שזו דרך להגדיל מודלים של בינה מלאכותית עם נתונים שנאספו ממקור חיצוני]. הרבה ארגונים רק חושבים על הנחיה הקלאסית ליצור תשובה. אבל באמת, מה שאנחנו רוצים לעשות זה [לשרשר] את כל המערכות הגנרטיביות המוגברות באחזור ביחד. כי אם אתה חושב עליך, ועל משימה שאולי תרצה לעשות: "אה, אני חייב ללכת לדבר עם צוות מסד הנתונים. וצוות מסד הנתונים הזה צריך ללכת לדבר עם צוות ה-Tableau. הם חייבים לעשות לי לוח מחוונים", וכל הדברים האלה צריכים לקרות לפני שאתה באמת יכול להשלים את המשימה. אז זה סוג של RAG מונע מאירועים. לא הייתי אומר ש-RAG מדברים עם RAG, אבל זה בעצם זה - סוכנים שיוצאים לדרך ומבצעים הרבה עבודה וחוזרים. ואנחנו על סף זה. אז אני חושב שזה משהו שאני ממש נרגש לראות ב-2024.

הקופה: האם Nvidia מייצרת ניסוי בינה מלאכותית משלה? האם מצאתם AI שימושי פנימי?

בריסקי: למעשה, יצאנו לדרך ובשנה שעברה, מאז שנת 2023 הייתה שנת החקירה, היו 150 צוותים בתוך Nvidia שמצאתי - היו יכולים להיות יותר - וניסינו לומר, איך אתה משתמש בכלים שלנו, איזה סוג של מקרי שימוש והתחלנו לשלב את כל הלמידה, בערך מתוך כאלף פרחים שפורחים, ושילבנו את כל הלמידה שלהם לשיטות מומלצות לריפו אחד. זה בעצם מה שפרסמנו בתור מה שאנחנו מכנים דוגמאות AI גנרטיבי ב-GitHub, כי רק רצינו לקבל את כל השיטות המומלצות במקום אחד.

זה בערך מה שעשינו מבחינה מבנית. אבל כדוגמה מפורשת, אני חושב שכתבנו את המאמר הנהדר הזה שנקרא ChipNeMo, ולמעשה הכל קשור לצוות העיצוב של EDA, VLSI שלנו, וכיצד הם לקחו את מודל הבסיס והם אימנו אותו על הנתונים הקנייניים שלנו. יש לנו שפות קידוד משלנו עבור VLSI. אז הם קידמו טייסי משנה [מודלים של יצירת קוד פתוח] כדי שיוכלו ליצור את השפה הקניינית שלנו ולעזור לפרודוקטיביות של מהנדסים חדשים שהגיעו, שלא כל כך מכירים את קוד כתיבת שבב עיצוב ה-VLSI שלנו.

וזה הדהד אצל כל לקוח. אז אם אתה מדבר עם SAP, יש להם BOP [עיבוד לאחור], שהוא כמו SQL קנייני למסד הנתונים שלהם. ודיברתי עם שלושה לקוחות אחרים שהיו להם שפות קנייניות שונות - אפילו ל-SQL יש מאות דיאלקטים. כך שהיכולת ליצור קוד אינה מקרה שימוש שניתן לפתרון מיידי על ידי RAG. כן, RAG עוזר לאחזר תיעוד וכמה קטעי קוד, אבל אלא אם הוא מאומן ליצור את האסימונים בשפה זו, הוא לא יכול להמציא רק קוד.

הקופה: כשאתה מסתכל על מודלים של שפות גדולות והאופן שבו הם משורשרים יחד עם יישומים, האם אתה חושב על ההשהיה שעלולה להופיע וכיצד להתמודד עם זה? האם יש מקרים שבהם פשוט קוד קשיח של עץ החלטות נראה כאילו זה הגיוני יותר?

בריסקי: אתה צודק, כשאתה שואל שאלה מסוימת, או הנחיה מסוימת, יכול להיות שיש, אפילו עבור שאלה אחת, יכולים להיות חמישה או שבעה דגמים שכבר יצאו לדרך כדי שתוכל לקבל שכתוב מהיר ומעקות בטיחות ורטריבר ודירוג מחדש ואחר כך הגנרטור. זו הסיבה שה-NIM כל כך חשוב, כי ביצענו אופטימיזציה לזמן השהייה.

זו גם הסיבה שאנו מציעים גרסאות שונות של דגמי היסוד מכיוון שאולי יש לך SLM, מודל שפה קטן שהוא די טוב יותר עבור קבוצה מסוימת של משימות, ואז אתה רוצה את הדגם הגדול יותר עם דיוק רב יותר בסוף. אבל אז שרשרת הכל כך שתתאים לחלון ההשהיה שלך היא בעיה שפתרנו במשך השנים עבור שירותים מנוהלים רבים. יש להם את חלונות ההשהיה האלה והרבה פעמים כשאתה שואל שאלה או מבצע חיפוש, הם למעשה יוצאים לדרך ומוציאים את השאלה מספר פעמים. אז יש להם הרבה תנאי מרוץ של "מהו חלון ההשהיה שלי לכל חלק קטן מהתגובה הכוללת?" אז כן, אנחנו תמיד מסתכלים על זה.

לנקודה שלך לגבי קידוד קשיח, בדיוק דיברתי עם לקוח על זה היום. אנחנו הרבה מעבר לקידוד קשיח... אתה יכול להשתמש במנהל דיאלוג ויש לך אם-אז-אחר. [אבל] ניהול אלפי הכללים הוא ממש ממש בלתי אפשרי. ובגלל זה אנחנו אוהבים דברים כמו מעקות בטיחות, כי מעקות מייצגים מעין תחליף למנהל דיאלוג קלאסי. במקום לומר, "אל תדבר על בייסבול, אל תדבר על סופטבול, אל תדבר על כדורגל," ולפרט אותם, אתה יכול פשוט לומר, "אל תדבר על ספורט". ואז ה-LLM יודע מה זה ספורט. החיסכון בזמן, והיכולת לנהל את הקוד הזה מאוחר יותר, הרבה יותר טוב. ®

ספוט_ימג

בית קפה VC

בית קפה VC

המודיעין האחרון

ספוט_ימג