
روش آموزشی جدید، استدلال چندوجهی هوش مصنوعی را با مجموعهدادههای کوچکتر و هوشمندتر تقویت میکند.
محققان MiroMind AI و چندین دانشگاه چینی، OpenMMReasoner را منتشر کردهاند؛ یک چارچوب آموزشی جدید که قابلیتهای مدلهای زبانی را در استدلال چندوجهی (Multimodal Reasoning) بهبود میبخشد. این چارچوب از یک فرآیند دو مرحلهای استفاده میکند. ابتدا، یک مدل پایه را با استفاده از یک مجموعه دادهی curated (انتخابشده و مرتبشده) در مرحلهی fine-tuning نظارتشده (SFT) اصلاح میکند. سپس، یک مرحلهی یادگیری تقویتی (RL) مدل را برای استدلال موثرتر در وظایفی که شامل دادههای متنی و بصری هستند، هدایت میکند. \n
آزمایشها نشان میدهند که مدلهایی که با OpenMMReasoner آموزش داده شدهاند، از سایر مدلهای پیشرو در استدلال بصری عملکرد بهتری دارند، اغلب در حالی که بر روی یک مجموعه دادهی کوچکتر و با کیفیتتر آموزش داده شدهاند. این چارچوب و تمام داراییهای آن، از جمله یک مدل 7B آموزشدیده، کاملاً منبعباز هستند و یک پایه قابل اعتماد برای ساخت برنامههایی که به قابلیت ردیابی و استحکام نیاز دارند، فراهم میکنند. \n
به گفته کایچن ژانگ، نویسنده مشترک مقالهای تحقیقاتی که این روش جدید را تشریح میکند، OpenMMReasoner مزایای قابل توجهی برای کسبوکارهایی دارد که به دنبال فراتر رفتن از سیستمهای بزرگ و بسته هستند. او به VentureBeat گفت: «یک مدل استدلال منبعباز کوچکتر، مزایای عملی دارد: شرکتها میتوانند آن را به صورت محلی مستقر کنند، تأخیر را کاهش دهند، هزینههای توکن مرتبط با زنجیرههای طولانی تفکر را کاهش دهند، کنترل کامل بر دادههای خود داشته باشند و آن را برای انطباق با وظیفه downstream خاص خود fine-tune کنند.» \n
چالش استدلال چندوجهی شفاف\nپیشرفتهای اخیر در یادگیری تقویتی با پاداشهای قابل تأیید (RLVR) به طور قابل توجهی تواناییهای استدلال مدلهای زبانی بزرگ را بهبود بخشیده است.