Quantcast
Channel: מגזין טכנולוגיה ובידור – Gadgety
Viewing all articles
Browse latest Browse all 25074

אנבידיה ו-Mistral AI מציגות את מודל השפה הזעיר Mistral-NeMo

$
0
0

אנבידיה (nvidia) וחברת הסטארטאפ מיסטרל (Mistral AI) הצרפתית הכריזו על Mistral-NeMo, מודל שפה זעיר בעל 12 מיליארד פרמטרים וחלון הקשר של 128 אלף טוקנים, שפותח באופן משותף על ידי שתי החברות כפתרון עסקי אותו החברות משחררות כפתרון קוד פתוח.

מודל ה-Mistral-NeMo החדש אומן באמצעות Megatron-LM, חלק ממודל ה-NeMo של אנבידיה עם תמיכה בפורמט ה-FP8 ללא איבוד ביצועים.

מודל זה נועד להחליף בצורה פשוטה וקלה את מודל ה-Mistral 7B הקודם של מיסטרל, תוך כדי שהוא מציג ביצועים טובים יותר ממודלי שפה זעירים אחרים בקוד פתוח כמו Gemma 2 9B של גוגל ו-Llama 3 8B של מטא.

לגודל הנמוך והתמיכה בפורמט ה-FP8 קיימת חשיבות גדולה ביכולת ההרצה של מודל ה-Mistral-NeMo באופן מקומי, כאשר הוא תוכנן על מנת להתאים לזיכרון הקיים בכרטיס מסך בודד מסוג NVIDIA L40S, GeForce RTX 4090 או NVIDIA RTX 4500.

ביצועי מודל ה-Mistral-NeMo החדש מול Gemma 2 9B ו-Llama 3 8B (מקור mistral.ai)
ביצועי מודל ה-Mistral-NeMo החדש מול Gemma 2 9B ו-Llama 3 8B (מקור mistral.ai)

אחד מהשינויים הגדולים במודל ה-Mistral NeMo הוא השימוש ב-Tekken, טוקנייזר (tokenizer) חדש המבוסס על Tiktoken, שאומן על מעל 100 שפות ומסוגל לדחוס שפה טבעית וטקסט בצורה טובה ויעילה יותר לעומת ה-SentencePiece בו השתמשו מודלי ה-Mistral הקודמים, דבר התורם ליעילות טובה יותר בכ~30% בדחיסת קוד ושפות כמו סינית, איטלקית, גרמנית, ספרדית ורוסית.

בנוסף, הוא מסוגל להציג יעילות של פי 2 ו-3 בשפות קוריאנית וערבית, כאשר הוא מציע יעילות גבוהה יותר מהטוקנייזר של מודל ה-Llama 3 של מטא בכ~85% מכלל השפות.

מודל ה-Mistral-Nemo החדש זמין דרך אתר Hugging Face ודרך פלטפורמת ה-NVIDIA NIM של אנבידיה, מודל הזמין תחת רישיון הקוד הפתוח Apache 2.0.

The post אנבידיה ו-Mistral AI מציגות את מודל השפה הזעיר Mistral-NeMo first appeared on מגזין טכנולוגיה ובידור - Gadgety.


Viewing all articles
Browse latest Browse all 25074