
روش جدید میتواند کارایی آموزش مدلهای زبان بزرگ را افزایش دهد.
مدلهای زبانی بزرگ استدلالی (LLM) برای حل مسائل پیچیده با تجزیه آنها به مجموعهای از مراحل کوچکتر طراحی شدهاند. این مدلهای قدرتمند بهویژه در انجام وظایف چالشبرانگیز مانند برنامهنویسی پیشرفته و برنامهریزی چند مرحلهای عملکرد خوبی دارند. اما توسعه مدلهای استدلالی به دلیل ناکارآمدیهای موجود در فرآیند آموزش، نیازمند محاسبات و انرژی بسیار زیادی است. در حالی که تعداد کمی از پردازندههای پرقدرت بهطور مداوم در حال پردازش پرسوجوهای پیچیده هستند، بقیه در حالت بیکاری قرار دارند.
محققان MIT و سایر مراکز، راهی برای استفاده از این زمان بیکاری محاسباتی جهت تسریع کارآمد آموزش مدلهای استدلالی پیدا کردهاند. روش جدید آنها بهطور خودکار یک مدل کوچکتر و سریعتر را برای پیشبینی خروجیهای مدل زبانی بزرگ استدلالی آموزش میدهد که مدل بزرگتر آن را تأیید میکند. این کار میزان کاری که مدل استدلالی باید انجام دهد را کاهش داده و فرآیند آموزش را تسریع میکند.
کلید این سیستم، توانایی آن در آموزش و استقرار تطبیقی مدل کوچکتر است، به طوری که تنها زمانی وارد عمل میشود که برخی از پردازندهها بیکار هستند. با بهرهگیری از منابع محاسباتی که در غیر این صورت هدر میرفت، آموزش تسریع میشود بدون اینکه سربار اضافی ایجاد شود.
در آزمایشهای انجامشده بر روی چندین مدل زبانی بزرگ استدلالی، این روش سرعت آموزش را دو برابر کرده و در عین حال دقت را حفظ کرده است. این امر میتواند هزینه توسعه مدلهای پیشرفته LLM را برای کاربردهایی مانند پیشبینی روندهای مالی یا تشخیص خطرات در شبکههای برق کاهش داده و بهرهوری انرژی را افزایش دهد. "افراد به مدلهایی نیاز دارند که بتوانند وظایف پیچیدهتری را انجام دهند. "