تاخیر یکی از مشکلات اساسی در بسیاری از کاربردهای مدل‌های زبانی بزرگ (LLM) است. در سناریوهایی مانند پیشنهادات کد و ویرایش اسناد طولانی، تاخیر می‌تواند تجربه کلی کاربر را تحت تاثیر قرار دهد. فرض کنید کاربری می‌خواهد پاراگراف آخر یک سند دو صفحه‌ای را بازنویسی کند. بهتر است که سند بازنویسی‌ شده فوراً ظاهر شود، چون تغییر تنها شامل یک پاراگراف است. اما APIهای فعلی مدل‌های زبانی بزرگ نیاز به بازتولید کل سند دارند که باعث تاخیر قابل توجهی برای کاربران می‌شود.

 

کاهش چشمگیر تاخیر مدل‌های زبانی با ویژگی جدید Predicted Outputs

 

OpenAI اکنون در تلاش است این مشکل را با ویژگی جدیدی به نام Predicted Outputs حل کند. این ویژگی می‌تواند در مواردی استفاده شود که بیشتر خروجی مدل زبانی از پیش مشخص است. وظایفی مانند ویرایش اسناد یا بازنویسی کد می‌توانند با این ویژگی بهبود یابند. Predicted Outputs با استفاده از روشی به نام رمزگشایی پیش‌ گویی (speculative decoding) محتوای شناخته‌ شده را رد می‌کند و تکرارها را بسیار سریع‌تر می‌کند.

توسعه‌ دهندگان می‌توانند با ارائه محتوای موجود به عنوان پیش‌ گویی، تاخیر را بطور قابل توجهی کاهش دهند. با این کار، کل محتوا با سرعت بسیار بیشتری بازتولید می‌شود.

OpenAI این ویژگی را با تعدادی از شرکای خارجی خود آزمایش کرد و نتایج بسیار مثبتی حاصل شد. به عنوان مثال، طبق معیارهای داخلی تیم Microsoft GitHub، استفاده از Predicted Outputs در وظایف Copilot Workspace منجر به افزایش سرعت ۵.۸ برابری شد.

تیم Exponent نیز به آزمایش و بهبود این API کمک کرد و اذعان داشتند که Predicted Outputs بسیار سریع عمل می‌کند و تجربه کاری فوق‌ العاده‌ای را برای توسعه‌ دهندگان فراهم می‌آورد. Exponent اعلام کرد که برای دسترسی زودهنگام به این ویژگی می‌توانید در Exponent ثبت‌نام کنید.

 

محدودیت‌ها در استفاده از Predicted Outputs:

  1. این ویژگی تنها برای مدل‌های سری GPT-4o و GPT-4o-mini پشتیبانی می‌شود و مدل‌های جدیدتر o1 شامل این قابلیت نیستند.
  2. همچنین پارامترهای زیر در زمان استفاده از Predicted Outputs پشتیبانی نمی‌شوند:

    1. مقادیر n بیشتر از ۱
    2. logprobs
    3. presence_penalty بالاتر از ۰
    4. frequency_penalty بالاتر از ۰
    5. گزینه‌های صوتی
    6. سایر حالت‌ها (تنها حالت متنی پشتیبانی می‌شود)
    7. max_completion_tokens
    8. ابزارها – فراخوانی توابع پشتیبانی نمی‌شود

 

با وجود محدودیت‌ها، ویژگی Predicted Outputs از پتانسیل بالایی برخوردار است و به ایجاد ابزارهای سریع‌تر و کارآمدتر با پشتیبانی از مدل‌های زبانی بزرگ کمک می‌کند.

source

توسط nastoor.ir