טכנולוגיית הרחבת זיכרון פורצת דרך, שאומתה על גבי Oracle Cloud Infrastructure , מנגישה את יכולות האינפרנס – ומספקת פי 1000 יותר זיכרון ופי 20 פחות זמן עד לטוקן הראשון עבור לקוחות NeuralMesh
סנט לואיס וקמפבל, קליפורניה, 19 בנובמבר 2025 / PRNewswire / — ידיעה מכנס SC25 : WEKA , חברת אחסון עבור יישומי AI (בינה מלאכותית), הכריזה היום על הזמינות המסחרית של Augmented Memory Grid™ על גבי NeuralMesh ™ , טכנולוגיית הרחבת זיכרון מהפכנית הפותרת את צוואר הבקבוק המרכזי המעכב את החדשנות בתחום ה- AI : זיכרון GPU . טכנולוגיית Augmented Memory Grid , לאחר שנבדקה ואומתה על גבי Oracle Cloud Infrastructure ( OCI ) ופלטפורמות ענן AI מובילות נוספות, מרחיבה את קיבולת הזיכרון של ה- GPU פי 1000 – מגיגה-בייטים לפטה-בייטים – ובמקביל מפחיתה את הזמן עד לטוקן הראשון בעד פי 20. פריצת דרך זו מאפשרת לבוני מערכות AI לייעל תהליכי חשיבה בהקשרים ארוכים וזרימות עבודה של AI סוכני, ובכך לשפר באופן דרמטי את יעילות עומסי האינפרנס – שהיו עד כה קשים במיוחד להרחבה.
מחדשנות לייצור: פתרון בעיית מחסום הזיכרון של ה- AI
מאז השקתה בכנס NVIDIA GTC 2025 , טכנולוגיית Augmented Memory Grid הוקשחה, נבדקה ואומתה בסביבות ייצור מובילות של ענן AI , החל מ- OCI . התוצאות אישרו את מה שהבדיקות המוקדמות הצביעו עליו: ככל שמערכות ה- AI מתפתחות לכיוונן של אינטראקציות ארוכות ומורכבות יותר – החל מיישומי קופיילוט לקוד ועד לעוזרי מחקר וסוכני חשיבה – הזיכרון הפך לצוואר הבקבוק הקריטי שמגביל את הביצועים והכדאיות הכלכלית של האינפרנס.
“אנחנו מביאים לשוק פתרון מוכח, שאומת על גבי Oracle Cloud Infrastructure ופלטפורמות תשתית AI מובילות נוספות”, אמר לירן צביבל, מייסד-שותף ומנכ”ל ב- WEKA . “התרחבות ה- AI הסוכני אינה רק עניין של כוח חישוב גולמי – מדובר בפתרון של מחסום הזיכרון באמצעות מסלולי נתונים חכמים. טכנולוגיית Augmented Memory Grid מאפשרת ללקוחות להפעיל יותר טוקנים לכל GPU , לתמוך במספר גדול יותר של משתמשים בו-זמנית ולפתוח מודלי שירות חדשים לחלוטין עבור עומסי עבודה בהקשרים ארוכים. תשתיות ה- Bare Metal של OCI , עם רשתות RDMA ביצועיות ויכולות GPUDirect Storage , הופכות אותה לפלטפורמה ייחודית להאצת אינפרנס בקנה מידה גדול”.
מערכות האינפרנס של היום מתמודדות עם מגבלה יסודית: זיכרון ה- HBM (זיכרון רוחב פס גבוה) של ה- GPU מהיר במיוחד אך מוגבל בקיבולת, בעוד זיכרון DRAM של המערכת מציע מקום גדול יותר אך עם רוחב פס נמוך בהרבה. כאשר שתי השכבות מתמלאות, ערכי המטמון מסוג Key-Value (KV cache) מוחלפים, ויחידות ה- GPU נאלצות לחשב מחדש טוקנים שכבר עיבדו – דבר המבזבז מחזורי חישוב, אנרגיה וזמן.
טכנולוגיית Augmented Memory Grid של WEKA שוברת את מחסום הזיכרון של ה- GPU על ידי יצירת גשר מהיר בין זיכרון ה- GPU (בדרך כלל HBM ) לבין אחסון מבוסס הבזק. היא משדרת באופן רציף את נתוני מטמון ה- Key-Value בין זיכרון ה- GPU למחסן הטוקנים של WEKA , תוך שימוש ב- RDMA ו- NVIDIA Magnum IO GPUDirect Storage להשגת מהירויות זיכרון. הדבר מאפשר למודלים של שפה גדולה ו- AI סוכני לגשת להקשרים רחבים הרבה יותר, בלי לחשב מחדש את מטמון ה- KV או את הטוקנים שנוצרו קודם לכן, ובכך משפר באופן דרמטי את היעילות ואת יכולת ההתרחבות.
ביצועים שנבדקו ב- OCI ואינטגרציה עם האקוסיסטם
בדיקות עצמאיות, כולל אימות על גבי OCI , אישרו את הדברים הבאים:
- פי 1000 יותר קיבולת למטמון KV תוך שמירה על ביצועים הקרובים לזיכרון.
- זמן עד לטוקן הראשון מהיר פי 20 בעת עיבוד 128,000 טוקנים בהשוואה לחישוב מחדש של שלב המילוי המוקדם.
- 7.5 מיליון פעולות קלט-פלט ( IOP ) של קריאה ו-1.0 מיליון פעולות IOP של כתיבה באשכול של שמונה צמתים.
עבור ספקי ענן AI , ספקי מודלים ובוני מערכות AI ארגוניים, התקדמויות אלו בביצועים משנות באופן יסודי את הכלכלה של האינפרנס. על ידי ביטול פעולות מילוי מוקדם מיותרות ושמירה על שיעורי פגיעה גבוהים במטמון, ארגונים יכולים למקסם את צפיפות הדיירים, להפחית מחזורי GPU בלתי מנוצלים ולשפר באופן דרמטי את החזר ההשקעה לכל קוט”ש. ספקי מודלים יכולים כעת להפעיל באופן רווחי מודלים עם הקשרים ארוכים, להפחית את עלויות הטוקנים של הקלט ולאפשר מודלים עסקיים חדשים לחלוטין סביב סשני AI מתמשכים ובעלי מצב.
המעבר לזמינות מסחרית משקף שיתוף פעולה מעמיק עם שותפים מובילים בתשתיות AI , כולל NVIDIA ו- Oracle . הפתרון משתלב באופן הדוק עם NVIDIA GPUDirect Storage , NVIDIA Dynamo ו- NVIDIA NIXL , כאשר WEKA פתחה את הקוד למודול ייעודי עבור NVIDIA Inference Transfer Library (NIXL) . חישוב GPU על גבי תשתיות Bare-Metal של OCI , בשילוב רשתות RDMA ויכולות NVIDIA GPUDirect Storage , מספק את הבסיס הביצועי הגבוה ש- WEKA זקוקה לו כדי לספק את Augmented Memory Grid ללא פשרות בביצועים בפריסות AI מבוססות ענן.
“כלכלת האינפרנס בקנה מידה גדול היא שיקול מרכזי עבור ארגונים”, אמר נייתן תומאס, סגן נשיא, ריבוי עננים, Oracle Cloud Infrastructure . “טכנולוגיית Augmented Memory Grid של WEKA מתמודדת ישירות עם אתגר זה. “השיפור פי 20 בזמן עד לטוקן הראשון שצפינו בו בבדיקות משותפות ב- OCI אינו רק מדד ביצועים; הוא משנה באופן יסודי את מבנה העלויות של הפעלת עומסי עבודה של AI . עבור הלקוחות שלנו, זה הופך את יישום הדור הבא ב- AI לקל יותר וזול יותר”.
זמינות מסחרית
טכנולוגיית Augmented Memory Grid נכללת כעת בתכונה עבור פריסות NeuralMesh וב- Oracle Cloud Marketplace , עם תמיכה בפלטפורמות ענן נוספות שצפויה להגיע בקרוב.
ארגונים המעוניינים לפרוס את Augmented Memory Grid יכולים לבקר בעמוד Augmented Memory Grid של WEKA כדי ללמוד עוד על הפתרון ועל קריטריוני ההתאמה.
אודות WEKA
WEKA משנה את האופן שבו ארגונים בונים, מפעילים ומשפרים את זרימת העבודה של ה- AI באמצעות NeuralMesh™ , מערכת האחסון האינטליגנטית והאדפטיבית שלה. שונה מתשתיות הנתונים המסורתיות, שהופכות לאטיות ופגיעות יותר ככל שעומסי העבודה גדלים, NeuralMesh הופכת למהירה יותר, חזקה יותר ויעילה יותר ככל שהיא מתרחבת ומסתגלת בצורה דינמית עם סביבות AI , ומספקת בסיס גמיש לחדשנות ב- AI הארגוני וב- AI הסוכני. NeuralMesh , אשר עליה סומכים 30% מחברות ה- Fortune 50 , מסייעת לארגונים מובילים, לספקי ענן AI ולבוני מערכות AI למקסם את השימוש ב- GPU , להאיץ את התרחבות ה- AI ולהפחית את עלויות החדשנות שלהם. למידע נוסף בקרו בכתובת www.weka.io , או צרו איתנו קשר ב- LinkedIn וב- X .
WEKA ולוגו ה- W הם סימני מסחר רשומים של WekaIO, Inc. . שמות מסחריים אחרים המוזכרים כאן עשויים להיות סימני מסחר של בעליהם החוקיים.
תמונה – https://mma.prnewswire.com/media/2825138/PR_WEKA_Augmented_Memory_Grid.jpg
לוגו – https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg
