تاخیر یکی از مشکلات اساسی در بسیاری از کاربردهای مدلهای زبانی بزرگ (LLM) است. در سناریوهایی مانند پیشنهادات کد و ویرایش اسناد طولانی، تاخیر میتواند تجربه کلی کاربر را تحت تاثیر قرار دهد. فرض کنید کاربری میخواهد پاراگراف آخر یک سند دو صفحهای را بازنویسی کند. بهتر است که سند بازنویسی شده فوراً ظاهر شود، چون تغییر تنها شامل یک پاراگراف است. اما APIهای فعلی مدلهای زبانی بزرگ نیاز به بازتولید کل سند دارند که باعث تاخیر قابل توجهی برای کاربران میشود.
OpenAI اکنون در تلاش است این مشکل را با ویژگی جدیدی به نام Predicted Outputs حل کند. این ویژگی میتواند در مواردی استفاده شود که بیشتر خروجی مدل زبانی از پیش مشخص است. وظایفی مانند ویرایش اسناد یا بازنویسی کد میتوانند با این ویژگی بهبود یابند. Predicted Outputs با استفاده از روشی به نام رمزگشایی پیش گویی (speculative decoding) محتوای شناخته شده را رد میکند و تکرارها را بسیار سریعتر میکند.
توسعه دهندگان میتوانند با ارائه محتوای موجود به عنوان پیش گویی، تاخیر را بطور قابل توجهی کاهش دهند. با این کار، کل محتوا با سرعت بسیار بیشتری بازتولید میشود.
OpenAI این ویژگی را با تعدادی از شرکای خارجی خود آزمایش کرد و نتایج بسیار مثبتی حاصل شد. به عنوان مثال، طبق معیارهای داخلی تیم Microsoft GitHub، استفاده از Predicted Outputs در وظایف Copilot Workspace منجر به افزایش سرعت ۵.۸ برابری شد.
تیم Exponent نیز به آزمایش و بهبود این API کمک کرد و اذعان داشتند که Predicted Outputs بسیار سریع عمل میکند و تجربه کاری فوق العادهای را برای توسعه دهندگان فراهم میآورد. Exponent اعلام کرد که برای دسترسی زودهنگام به این ویژگی میتوانید در Exponent ثبتنام کنید.
محدودیتها در استفاده از Predicted Outputs:
- این ویژگی تنها برای مدلهای سری GPT-4o و GPT-4o-mini پشتیبانی میشود و مدلهای جدیدتر o1 شامل این قابلیت نیستند.
- همچنین پارامترهای زیر در زمان استفاده از Predicted Outputs پشتیبانی نمیشوند:
- مقادیر n بیشتر از ۱
- logprobs
- presence_penalty بالاتر از ۰
- frequency_penalty بالاتر از ۰
- گزینههای صوتی
- سایر حالتها (تنها حالت متنی پشتیبانی میشود)
- max_completion_tokens
- ابزارها – فراخوانی توابع پشتیبانی نمیشود
با وجود محدودیتها، ویژگی Predicted Outputs از پتانسیل بالایی برخوردار است و به ایجاد ابزارهای سریعتر و کارآمدتر با پشتیبانی از مدلهای زبانی بزرگ کمک میکند.
source