محققان MiroMind AI و چندین دانشگاه چینی، OpenMMReasoner را منتشر کرده‌اند؛ یک چارچوب آموزشی جدید که قابلیت‌های مدل‌های زبانی را در استدلال چندوجهی (Multimodal Reasoning) بهبود می‌بخشد. این چارچوب از یک فرآیند دو مرحله‌ای استفاده می‌کند. ابتدا، یک مدل پایه را با استفاده از یک مجموعه داده‌ی curated (انتخاب‌شده و مرتب‌شده) در مرحله‌ی fine-tuning نظارت‌شده (SFT) اصلاح می‌کند. سپس، یک مرحله‌ی یادگیری تقویتی (RL) مدل را برای استدلال موثرتر در وظایفی که شامل داده‌های متنی و بصری هستند، هدایت می‌کند. \n

آزمایش‌ها نشان می‌دهند که مدل‌هایی که با OpenMMReasoner آموزش داده شده‌اند، از سایر مدل‌های پیشرو در استدلال بصری عملکرد بهتری دارند، اغلب در حالی که بر روی یک مجموعه داده‌ی کوچک‌تر و با کیفیت‌تر آموزش داده شده‌اند. این چارچوب و تمام دارایی‌های آن، از جمله یک مدل 7B آموزش‌دیده، کاملاً منبع‌باز هستند و یک پایه قابل اعتماد برای ساخت برنامه‌هایی که به قابلیت ردیابی و استحکام نیاز دارند، فراهم می‌کنند. \n

به گفته کایچن ژانگ، نویسنده مشترک مقاله‌ای تحقیقاتی که این روش جدید را تشریح می‌کند، OpenMMReasoner مزایای قابل توجهی برای کسب‌وکارهایی دارد که به دنبال فراتر رفتن از سیستم‌های بزرگ و بسته هستند. او به VentureBeat گفت: «یک مدل استدلال منبع‌باز کوچکتر، مزایای عملی دارد: شرکت‌ها می‌توانند آن را به صورت محلی مستقر کنند، تأخیر را کاهش دهند، هزینه‌های توکن مرتبط با زنجیره‌های طولانی تفکر را کاهش دهند، کنترل کامل بر داده‌های خود داشته باشند و آن را برای انطباق با وظیفه downstream خاص خود fine-tune کنند.» \n

چالش استدلال چندوجهی شفاف\nپیشرفت‌های اخیر در یادگیری تقویتی با پاداش‌های قابل تأیید (RLVR) به طور قابل توجهی توانایی‌های استدلال مدل‌های زبانی بزرگ را بهبود بخشیده است.