**هوش مصنوعی Google DeepMind در دنیای رباتیک: گسترش تکنولوژی Gemini**
گوگل DeepMind یک قویترین 모델ساز در ایجاد برنامههای واسط بتا است که معمولاً پیشرفت های پیوسته را در زمینه هوش مصنوعی نشان میدهد. در تابستان ۲۰۲۳، این شرکت anunció چندین برنامه به روز شده به نامهای Gemini، Imagen، Veo، Gemma و AlphaFold. این برنامهها ادامهساز فرایند بهبود درونی نظام DeepMind هستند که این فرایند سبب بوده است تا برنامههای پیشرفته بشوند.
پرداخته شده در این مقاله به دو برنامه جدید در زمینه Robotics، Gemini Robotics و Gemini Robotics-ER میپردازد که از Techonomy Gemini را برسیم و بررسی عنه خوبی داشته باشیم.
**Gemini Robotics: مدیر RANSAC که ماهیت متفاوتی دارد**
Gemini Robotics یک برنامه پیشرفته VLA (View-Lang-Act) است که بر اساس Gemini 2.0 شکل گرفته است. تحول اصلی در این برنامه به علاوه داشتن «فیزیک تفریحی» است. این برنامه اجازه داده است تا ضمن درک موقعیت هایی که در دوران آموزش دیده نشده است، درک کردن هوش مصنوعی را نیز شدت بخشد.
مانند Gemini Robotics، در یک معیار جامع درک پذیری نیز دو برابر اثربخش است که دیگر برنامههای ممکن بوده ها را پشت سر میگذارد. دلیل این تضاد این است که Gemini Robotics بر اساس Gemini 2.0 طراحی شده است که این بخش بسیار از امکانات درک زبانی فشرده از زبانهای مختلفی برخوردار است که در نتیجه، دستورات به تنهایی درک میشود.
تیم تحقیقاتی گوگل اعتقاد دارد که این برنامه میتواند موثر باشد برای انجام وظایف پیچیده که شامل دستکاری ضروری میشود. صرف نظر از کوبیدن اوریگامی یا قرار دادن یک خوراکی در کیسه لولهدار برنامه Gemini Robotics این وظایف را با موفقیت انجام میدهد.
**Gemini Robotics-ER: تمرکز بر استدلال فضایی و ویژگیهای قابل دسترس برای متخصصان**
Gemini Robotics-ER، برنامه پیشرفته View-Lang است که بر استدلال فضایی تمرکز دارد و به متخصصان رباتیک اجاز سنجش میدهد تا آن را با کنترلکنندههای موجود با بالا سطح خود مرتبط شوند. استفاده از این برنامه، در دسترس میآورد تا تمام مراحل کنترل ربات را بر اساس درک محیط، تخمین وضعیت، درک فضایی، برنامهریزی و تولید کد انجام دهند.