مایکروسافت در دسامبر 2024، مدل زبانی کوچک Phi-4 را با عملکردی پیشرفته در کلاس خود معرفی کرد. امروز، مایکروسافت خانواده Phi-4 را با دو مدل جدید گسترش می‌دهد: Phi-4-multimodal و Phi-4-mini.

مدل جدید Phi-4-multimodal از گفتار، تصویر و متن به طور همزمان پشتیبانی می‌کند، در حالی که Phi-4-mini بر وظایف متنی متمرکز است.

 

مایکروسافت دو مدل جدید هوش مصنوعی Phi-4 را با قابلیت‌های پیشرفته معرفی کرد

 

Phi-4-multimodal یک مدل با 5.6 میلیارد پارامتر است و اولین مدل زبانی چندوجهی مایکروسافت است که پردازش گفتار، تصویر و متن را در یک معماری واحد ادغام می‌کند. در مقایسه با سایر مدل‌های پیشرفته موجود، از جمله Gemini 2.0 Flash و Gemini 2.0 Flash Lite گوگل، Phi-4-multimodal عملکرد بهتری در چندین معیار دارد.

در وظایف مرتبط با گفتار، Phi-4-multimodal از مدل‌های تخصصی گفتار مانند WhisperV3 و SeamlessM4T-v2-Large در تشخیص خودکار گفتار (ASR) و ترجمه گفتار (ST) پیشی می‌گیرد. مایکروسافت اعلام کرده که این مدل با نرخ خطای کلمه 6.14% به رتبه اول در جدول Hugging Face OpenASR دست یافته است.

در وظایف مرتبط با تصویر، Phi-4-multimodal عملکرد قوی در استدلال ریاضی و علمی داشته است. در قابلیت‌های چندوجهی معمول، مانند درک اسناد و نمودار، OCR و استدلال علمی بصری، این مدل جدید با مدل‌های محبوبی مانند Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet برابری می‌کند یا از آنها پیشی می‌گیرد.

Phi-4-mini یک مدل با 3.8 میلیارد پارامتر است و در وظایف متنی از چندین LLM بزرگتر محبوب، از جمله در استدلال، ریاضیات، کدنویسی، پیروی از دستورالعمل و فراخوانی تابع، پیشی می‌گیرد.

برای اطمینان از امنیت و ایمنی این مدل‌های جدید، مایکروسافت با کارشناسان امنیتی داخلی و خارجی آزمایش‌هایی را انجام داده و از استراتژی‌های تدوین شده توسط تیم قرمز هوش مصنوعی مایکروسافت (AIRT) استفاده کرده است. هر دو مدل Phi-4-mini و Phi-4-multimodal می‌توانند با بهینه‌سازی بیشتر با ONNX Runtime برای دسترسی چند پلتفرمی، روی دستگاه مستقر شوند و برای سناریوهای کم هزینه و با تأخیر کم مناسب هستند.

هر دو مدل Phi-4-multimodal و Phi-4-mini اکنون برای توسعه‌دهندگان در Azure AI Foundry، Hugging Face و NVIDIA API Catalog در دسترس هستند. توسعه‌دهندگان می‌توانند با مطالعه مقاله فنی، خلاصه‌ای از موارد استفاده توصیه شده مدل‌ها و محدودیت‌های آنها را مشاهده کنند.

این مدل‌های جدید Phi-4 نشان‌دهنده پیشرفت‌های قابل توجهی در هوش مصنوعی کارآمد هستند که قابلیت‌های قدرتمند چندوجهی و متنی را برای انواع کاربردهای هوش مصنوعی به ارمغان می‌آورند.

source

توسط nastoor.ir