אז מה אותו מודל שריסק את שוק מניות ה AI ?


DeepSeeK R1 מודל הבינה המלאכותית הסינית ששבר את שוק המניות השבוע וגרר את מניות ה AI לירידות חדות, אינבידיה עם מחיקת הערך הגבוהה ביותר בהיסטוריה! 600 מיליארד דולרים!

ארה"ב עד ללפני מספר ימים הייתה החלוצה בתחום ה AI בזכות היוזמה והחדשנות של החברות המובילות

וגם עם קצת עזרה מהממשל ששולט מלאכותית במכירת השבבים לתעשיית ה AI המגביל רכישת שבבים למדינות זרות וכך מגביל את כח העיבוד שלהן שבתורו מגביל את היכולת שלהן לחדש בתחום.

הנשיא לשעבר ביידן רק לאחרונה אישר " אמברגו" שבבים שמגביל מכירת שבבים למדינות שונות בעולם אחת מהן היא ישראל.

בדיוק בגלל סיבות אלה, העובדה שצץ מודל חדש "כרעם ביום בהיר" והצליח להשתוות לשחקנים המובילים בשוק נוצרה תבהלה גדולה שהובילה למפולת בשוק ההון.

לא רק שהמודל עצמו משתווה ביכולות ולפעמים אפילו מתעלה על המודלים הקיימים גם עלויות הלמידה שלו הן הרבה יותר נמוכות והעובדה שהוא בקוד פתוח היא רק הדובדבן שעל הקצפת.

נעבור לצד הטכני יותר?

DeepSeek R1 הוא מודל בינה מלאכותית מהפכני שפותח על ידי מעבדת המחקר הסינית DeepSeek AI. מה שמייחד את DeepSeek R1 הוא היכולת המרשימה שלו להתמודד עם משימות חשיבה מורכבות, דבר שמבדיל אותו ממודלים אחרים בשוק, כולל המודל של OpenAI, o1. אז למה DeepSeek R1 כל כך חשוב?

1. קוד פתוח – מהפכה בעבודת המפתחים

אחד מהמאפיינים הבולטים ביותר של DeepSeek R1 הוא היותו פרויקט קוד פתוח. זה אומר שכל אדם יכול להשתמש בו, לשנות אותו ולתרום לפיתוחו. מדובר במהפכה בתחום ה-AI, שמאפשרת גישה חופשית למפתחים, חוקרים ועסקים מכל רחבי העולם, ומאיצה את החדשנות בתחום.

2. חוזק ויעילות

DeepSeek R1 כולל 671 מיליארד פרמטרים, כאשר 37 מיליארד מהם פעילים בזמן הפעולה של המודל. זו עוצמה חישובית מרשימה. יתרה מכך, המודל עושה שימוש בטכניקת Mixture-of-Experts (MoE) שמביאה לאופטימיזציה של הביצועים תוך חיסכון בעלויות חישוביות. זהו מודל חזק ויעיל.

3. יכולות חשיבה יוצאות דופן

DeepSeek R1 לא רק מבצע שיחות כמו רוב הצ'אט-בוטים. הוא מותאם במיוחד למשימות חשיבה מורכבות, כמו הוכחות מתמטיות, פתרון בעיות קוד ואתגרים לוגיים. המודל מצליח להתעלות על אחרים בביצועים בתחומים אלה ומספק תוצאות מרשימות במגוון מדדים.

4. חשיבה מתמטית

במבחנים שמתמקדים במתמטיקה כמו AIME ו-MATH-500, DeepSeek R1 הוכיח את עצמו על ידי השגת ציונים מרשימים. במבחן AIME הוא השיג 79.8%, לעומת 79.2% של o1, ובמבחן MATH-500 הוא השיג 97.3% בהשוואה ל-96.4% של o1. ההבדלים הללו אולי נראים קטנים, אך בתחום ה-AI כל אחוז חשוב.

5. יכולות קידוד

גם בתחום הקידוד, DeepSeek R1 לא מאכזב. במבחן Codeforces הוא נמצא כמעט שווה לשם עם o1, עם ציון של 96.3% לעומת 96.6% של o1. כך, בין אם מדובר בפתרון בעיות אלגוריתמיות ובין אם ביצירת קטעי קוד מורכבים, DeepSeek R1 מספק תוצאות מצוינות.

6. ידע כללי וחשיבה כללית

מלבד תחומי המתמטיקה והקידוד, DeepSeek R1 גם מציג ביצועים מרשימים בידע כללי וחשיבה רחבה יותר. במבחן MMLU (Massive Multitask Language Understanding), שבודק ידע כללי בתחומים שונים, DeepSeek R1 השיג ציון של 90.8%, רק אחוז אחד פחות מ-o1, שעמד על 91.8%.

7. הסוד מאחורי DeepSeek R1

איך הצליחו ב-DeepSeek לפתח מודל כזה עוצמתי? התשובה טמונה בגישה החדשנית שהם אימצו במהלך תהליך האימון של המודל. DeepSeek R1 פותח בתהליך דו-שלבי, שבו השתמשו בנתונים "קרים" בשלב הראשון ולאחר מכן הוסיפו למודל למידת חיזוק (Reinforcement Learning) בקנה מידה רחב. תחילה פותח DeepSeek R1-Zero, מודל שנאמן אך ורק באמצעות למידת חיזוק, מבלי עידון פיקוח. השיטה הזו אפשרה למודל לפתח יכולות חשיבה טבעיות, אולם הובילה גם לבעיות כמו חזרה אינסופית ושילוב שפות. לשם פתרון הבעיות הללו, הוצג DeepSeek R1, שמבצע שילוב של נתונים קרירים לפני הפעלת למידת חיזוק, מה שמסייע לו לגלות דפוסים משופרים של חשיבה תוך התאמה להעדפות אנושיות.

8. מהפכה בקוד פתוח

ההיבט המהפכני של DeepSeek R1 הוא העובדה שהמודל מוצע כקוד פתוח תחת רישיון MIT. זה אומר שכולנו יכולים להשתמש במודל בחינם, להפעיל אותו בצורה מסחרית, לשנות אותו ולהתאים אותו לצרכים שלנו. בנוסף, DeepSeek גם שחררה גרסאות מקטנות של המודל, עם מספר פרמטרים שמגיעים בין 1.5 מיליארד ל-70 מיליארד. כך, גם אם אין לכם חומרה מתקדמת, אתם עדיין יכולים לנצל את יכולות DeepSeek R1.

האם המודל החדש יסחף את השוק קדימה בדיוק כמו שגרר את הבורסה לירידות? אין לדעת.
רק דבר אחד בטוח שמי שהכי פחות מרוצה כרגע הוא כנראה שם אלטמן.