تغییرات و تحولی که با گذشت زمان در فناوریها رخ میدهند، در واقع فرصتی برای جهش در اکتشافات علمی، تسریع پیشرفت انسانها و بهبود زندگیهایمان فراهم خواهند کرد. تغییر – و مرحله جدیدی – که اکنون با هوش مصنوعی یا همان AI شاهد وقوع آن هستیم، تأثیر بسیار عمیقتری نسبت به تحولات پیشین فناوری – مثل روی کار آمدن تلفنهای همراه یا ظهور اینترنت – خواهند داشت. هوش مصنوعی این توانایی را دارد تا فرصتهایی را – از مواردی معمولی در زندگی روزمره گرفته تا فرصتهای خارقالعاده – برای انسانها و در هرجایی که هستند، ایجاد کند. این فناوری، موجهای جدیدی از پیشرفتهای اقتصادی و نوآوری را بهدنبال خواهد داشت. همچنین دانش، یادگیری، بهرهوری و خلاقیت را در ابعادی که تا به حال ندیدهایم به پیش میبرند. هوش مصنوعی «جمنای» (Gemini) گوگل، تازهترین و توانمندترین راهکار «چندوجهی» (Multimodal) هوش مصنوعی از این شرکت – که بهتازگی منتشر شده است، بخشی از همین تحولات محسوب میشود. در این مطلب از مجله فرادرس میخواهیم به زبان ساده برایتان توضیح دهیم که هوش مصنوعی جمنای چیست و همچنین، ماهیت پیشرفتهترین و جامعترین مدل غول فناوری گوگل – تا این لحظه – را برای شما شرح دهیم.
بهطور کلی، هوش مصنوعی جمنای یک مدل جدید و قدرتمند هوش مصنوعی است که توانایی انقلاب و ایجاد تحول در حوزههای گوناگون را دارد. هوش مصنوعی Gemini از گوگل، برای اولین بار در کنفرانس توسعهدهندگان I/O گوگل در سال 2023 (۱۴۰۲ خورشیدی) معرفی شد که پیشرفت و گامی اساسی رو به جلو در «برنامه راهبردی» (Roadmap) هوش مصنوعی این برند را نشان میدهد. این رویداد، نتیجه فعالیتهای ترکیبی آزمایشگاههای هوش مصنوعی Brain و DeepMind گوگل است که سفری جدید در رابطه با LLM را به اتفاق هم شروع کردهاند. اطلاعرسانی اولیه در مورد هوش مصنوعی جمنای، کمی پس از راهاندازی گوگل بارد، Duet AI و PaLM 2 LLM شروع شد. با این حال، غول فناوری گوگل چندین ماه بعد، نخستین نسخه از این راهکار را بههمراه Roadmap واضح برای پیشرفتهای بعدی معرفی کرد.
کمترین چیزی که از این قضیه در مییابیم، این است که گوگل با هوش مصنوعی جمنای، پیشروی پیوستهای را در راستای پس گرفتن سهم خود از بازار هوش مصنوعی از رقیبهایی مانند مِتا و مایکروسافت به نمایش گذاشته است، همچنان که تقاضا هم برای هوش مصنوعی مولد زیاد میشود. در ادامه، توضیحات بیشتری را در رابطه با هوش مصنوعی جمنای گوگل و نحوه بهکارگیری آن بیان میکنیم.
هوش مصنوعی جمنای چیست؟
هوش مصنوعی جِمِنای گوگل یا همان Google Gemini، بیانگر مجموعهای از «مدلهای زبانی بزرگ» (Large Language Models | LLM) است که روشهای آموزشی – نظیر جستجوی درختی و «یادگیری تقویتی» (Reinforcement Learning) – از AlphaGo را بهکار میگیرند. هوش مصنوعی جمنای به دنبال این است که پرچمدار گوگل در حوزه هوش مصنوعی شود و مجموعه محصولات و سرویسهای گوگل را قدرت ببخشد.
با توجه به اظهارات «Demis Hassabis» مدیر اجرایی و همبنیانگذار DeepMind گوگل، هوش مصنوعی جمنای، قدرتمندترین مدلی است که تا به حال ساختهاند. این محصول نتیجه تلاشهای مشارکتی قابل توجهی است که بهوسیله چندین تیم در گوگل و همچنین بخش پژوهشهای گوگل صورت گرفته است. برعکس سایر مدلهای LLM، هوش مصنوعی جمنای گوگل، از پایه با هدف Multimodal یا چندوجهی بودن ساخته شد. Gemini میتواند بهطور بیوقفه انواع دادهای گوناگون نظیر متن، کدها، صدا، ویدیو و تصاویر را ترکیب، «عمومیسازی» (Generalize) و درک کند.
راهکار ارائهشده، روی تراشههای هوش مصنوعی – درونسازمانی – گوگل و واحدهای پردازشی تنسور، نظیر TPU نسخه ۴ و v5e آموزش دیده است که یکی از منعطفترین مدلهای بازار و یکی از کارآمدترین آنها است. در حالیکه سایر پردازشهای مالتیمُدال به انرژی زیادی نیاز دارند، هوش مصنوعی جمنای میتواند روی هر سیستمی، از دیتاسنترها گرفته تا دستگاههای تلفنهمراه اجرا شود.
هوش مصنوعی جمنای، خانوادهای از«مدلهای زبانی بزرگ و چندوجهی» (Multimodal Large Language Models) است که توسط DeepMind گوگل توسعه یافته است و به عنوان جانشینی برای LaMDA و PaLM 2 مورد استفاده قرار میگیرد.
منظور از چندوجهی بودن هوش مصنوعی جمنای چیست؟
شرکت گوگل بهتازگی سیستم هوش مصنوعی جدیدی بهنام جمنای را معرفی کرده است که به ظاهر میتواند هر نوع پرامپتی – نظیر تصاویر، متون، گفتار، موسیقی، کدهای برنامهنویسی و بسیاری موارد دیگر – را هوشمندانه درک و راجع به آن گفتگو کند. این نوع از سیستمهای هوش مصنوعی با نام «مدل چندوجهی» (Multimodal Model) شناخته میشود. این مفهوم در واقع چیزی فراتر از توانایی مدلهای پیشین در مدیریت متن یا تصاویر است. و این بیانگر مسیری است که آینده هوش مصنوعی ممکن است در آن پیش رود یعنی توانایی تحلیل و پاسخدهی بیدرنگ به اطلاعاتی که از جهان بیرون میآید. مشخص است که سیستمهای هوش مصنوعی بهسرعت در حال پیشرفت هستند. این سیستمها در حال پیشروی بهسوی قابلیت مدیریت ورودی و خروجیهای بسیار پیچیدهتر هستند.
معماری هوش مصنوعی جمنای چیست؟
با وجود اینکه پژوهشگران، جزئیات مفصلی را در رابطه با معماری هوش مصنوعی Gemini افشا نکردهاند، این قضیه را میدانیم که مدلهای جمنای بر مبنای دیکودرهای ترانسفورمر – با بهبودهای صورت گرفته در معماری و بهینهسازی مدل به منظور آموزشی با ثبات در اندازه بزرگ ایجاد شدهاند. مدلها در JAX – از فریمورکهای یادگیری ماشین – نوشته شده و با استفاده از TPU-ها آموزش دیدهاند.
این معماری شبیه به Flamingo ،CoCa و PaLI دیپمایند – با انکودرهای بصری و متنی جداگانه – است.
مؤلفههای مربوط به این مدل را در ادامه توضیح دادهایم.
- دنباله ورودی: کاربر، ورودیها را – در قالبهای گوناگون نظیر متن، عکس، صدا، ویدیو، مدلهای ۳-بُعدی، نمودارها و غیره – به سیستم ارائه میدهد.
- انکودر: انکودر، این ورودیها را گرفته و آنها را به زبانی عمومی و قابل فهم برای دیکودر تبدیل میکند. این کار با تبدیل انواع دادههای گوناگون به یک بازنمایی یکپارچه انجام میشود.
- مدل: سپس، ورودیهای انکود شده، به مدل تغذیه میشوند. مدل چندوجهی یا Multi-Modal، نیازی به آگاهی از خصوصیات کار مورد نظر ندارد و ورودیها را بهسادگی بر مبنای کار فعلی پردازش میکند.
- دیکودر متن و عکس: یکودر، ورودیهای پردازششده را از مدل گرفته و به تولید خروجیها میپردازد. جمنای در زمان کنونی، تنها میتواند خروجیهای متنی و تصویری را تولید کند.
انواع مختلف هوش مصنوعی جمنای
نسخهای که از هوش مصنوعی جمنای در سال 2023 (۱۴۰۲ خورشیدی) منتشر شد، اولین نسخه از آن بود که Gemini 1.0 نام داشت. این نسخه برای ۳ اندازه گوناگون بهینهسازی شده است.
- «هوش مصنوعی جمنای نانو» (Google Gemini Nano)
- «هوش مصنوعی جمنای پرو» (Google Gemini Pro)
- «هوش مصنوعی جمنای اولترا» (Google Gemini Ultra)
هوش مصنوعی Gemini، تنها یک مدل AI نیست. نسخهای سبکتر از این سیستم بهنام Gemini Nano وجود دارد که توانایی اجرا -به صورت بومی و آفلاین – روی دستگاههای اندرویدی را دارد. نسخه قویتری نیز از آن وجود دارد که با نام Gemini Pro شناخته میشود. این نسخه بهزودی بسیاری از سرویسهای هوش مصنوعی گوگل را نیرو میبخشد و هم اکنون تبدیل به ستون حیاتی Bard شده است. همچنین مدل قدرتمندتری بهنام Gemini Ultra وجود دارد که قویترین LLM -گوگل تا این لحظه – است و بهنظر میآید که برای دیتاسنترها و اپلیکیشنهای سازمانی طراحی شده است.
در حال حاضر، Bard از جمنای پرو استفاده میکند. کاربران Pixel 8 Pro نیز ویژگیهای جدیدی را به لطف جمنای نانو دریافت خواهند کرد. جمینی اولترا هم درسال آینده عرضه خواهد شد.
نوع Nano در هوش مصنوعی جمنای چیست؟
هوش مصنوعی «جمنای نانو» (Gemini Nano) گوگل، نسخهای سبک و بهینهشده از مدل LLM محسوب میشود که در ۲ اندازه آورده شده در زیر موجود است.
- Nano-1: دارای ۱٫۸ میلیارد پارامتر
- Nano-2: دارای ۳٫۲۵ میلیارد پارامتر
این نسخه از هوش مصنوعی جمنای، به منظور اجرا روی دستگاههای موبایل طراحی شده است. بهزودی نیز در برنامه «هسته هوش مصنوعی» (AI Core) گوگل با اندروید ۱۴ شاهد آن خواهیم بود. Nano تغذیهکننده ویژگیهای مختلفی نظیر خلاصهسازی درون اپلیکیشن Record و پیشنهاد پاسخ برای اپلیکیشنهای پیامرسانی است.
نوع Pro در هوش مصنوعی جمنای چیست؟
«جمنای پرو» (Gemini Pro) روی دیتاسنترهای گوگل اجرا میشود و مواردی نظیر گوگل بارد – چتباتی شبیه به راهکار Capilot مایکروسافت – را امکانپذیر میکند. این نسخه بهزودی در سایر ابزارهای گوگل، نظیر Duet AI، گوگلکروم، گوگل Ads و جستجوی مولد گوگل نیز بهکار گرفته خواهد شد. با توجه به اظهارات گوگل، جمنای Pro در انجام کارهایی نظیر ایدهپردازی، نویسندگی و خلاصهسازی محتوا از GPT-3.5 عملکرد بسیار کارآمدتری از خود نشان داده است.
نوع Ultra در هوش مصنوعی جمنای چیست؟
جمنای Ultra – که هنوز بهطور عمومی در دسترس نیست – بهترین و قدرتمندترین مدل در این مجموعه محسوب میشود. درست مانند Pro، آموزش نسخه اولترا هم بهصورت Multimodal بوده است. همچنین روی سورسکدهای گوناگون، از پیش آموزش دیده و تنظیم و بهینهسازی شده است. جمنای اولترا میتواند اطلاعات پیچیده – و با جزئیات فراوان – در متن، کد و صدا را درک کند و به پرسشهای مرتبط با مباحث پیچیده پاسخ دهد.
تحلیل بیدرنگ اطلاعات
سیستمهای هوش مصنوعی برای توسعه قابلیتهای جدید، بهشدت به نوع دادههای آموزشی وابسته هستند که در اختیار دارند. سیستمهای AI در معرض این دادهها قرار میگیرند تا در کاری که انجام میدهند مانند استنتاج – مثل شناسایی چهره در یک عکس یا نوشتن مقاله – پیشرفت کنند.
هماکنون دادههای که شرکتهای گوگل، OpenAI، متا و غیره مدلهای خود را بر مبنای آن آموزش میدهند هنوز بهطور عمده دادههای دیجیتالیشدهای است که از اینترنت جمعآوری شدهاند. با این وجود تلاشهای در حال انجام است تا دامنه دادههای در دسترس هوش مصنوعی گسترش یابد. بهطور مثال، با بهکارگیری دوربینها، میکروفونها و سایر سنسورهای همیشه فعال، این امکان وجود دارد تا به AI اجازه دهیم که بداند در جهان اطرافش چه وقایعی رخ میدهد.
تحلیل دادههای بیدرنگ در هوش مصنوعی جمنای چیست؟
هوش مصنوعی جمنای گوگل، بیانگر جهش بزرگ بعدی در فناوری هوش مصنوعی است.
سیستم جدید هوش مصنوعی گوگل یا همان جمنای، نشان میدهد که میتواند محتوای بیدرنگ نظیر ویدیوهای زنده و گفتار انسانها را بفهمد. هوش مصنوعی همچنین با سنسورها و دادههای جدید میتواند بر وقایع جهانی واقعی نظارت، راجع به آنها بحث و بر مبنای آنها عمل نماید.
برجستهترین مثال برای این مورد، خودروهای خودران هستند که در حال حاضر حجم بسیار زیادی داده را هنگام رانندگی در جادههایمان جمعآوری میکنند. این اطلاعات در نهایت به سرورهای کارخانه سازنده آن راه مییابند که علاوه بر لحظه عملکرد وسیله نقلیه، برای ساخت مدلهای کامپیوتری دراز مدت از وضعیتهای رانندگی بهکار میروند. این مورد، هم به بهبود جریانهای ترافیکی کمک میکند و هم برای شناسایی رفتارهای مجرمانه و مشکوک توسط نهادها بهکار گرفته میشود.
سنسورهای حرکتی، دستیارهای صوتی و دوربینهای امنیتی مورد استفاده در منازل، اکنون برای تشخیص فعالیتها و آموختن عادتهایمان استفاده میشوند. سایر ابزارهای هوشمند نیز بهطور مداوم در بازار، موجود هستند. با وجود اینکه با کاربردهای مرسوم این موارد – نظیر بهینهسازی سیستم گرمایشی به منظور مصرف بهینه انرژی – آشنا هستیم اما درک عادتها خیلی بیشتر پیشرفت خواهد کرد.
یعنی هوش مصنوعی میتواند فعالیتهای منزل را بفهمد و حتی رخدادهای آینده را نیز پیشبینی کند. سپس این دادهها میتوانند در مواردی مفیدی بهکار گفته شود. بهطور مثال، بهوسیله پزشکان برای تشخیص زودهنگام شروع بیماریهایی مثل دیابت یا زوال عقل و همچنین برای توصیه و پیگیری تغییرات لایفاستایل بهکار روند.
همچنانکه اطلاعات – و آگاهی – هوش مصنوعی از جهان واقعی بیشتر میشود میتواند به عنوان یک همراه در تمام لحظات زندگی کنار ما حضور داشته باشد. در فروشگاه مواد غذایی میتوانیم گفتو گویی در مورد انتخاب اقتصادیترین و بهترین مواد غذایی – که در حال برنامهریزی برای تهیه آن هستیم – داشته باشیم. هوش منصوعی در محل کار میتواند اسامی و علاقهمندیهای مشتریان را در ملاقاتهای رو در رو با آنان، به ما یادآوری کند و همچنین بهترین روش برای ایمنسازی کسب و کارهایشان را پیشنهاد دهد.
هنگام سفر به کشوری خارجی هوش مصنوعی میتواند مکالمههای پیوستهای راجع به جاذبههای توریستی محلی با ما داشته باشد. ضمن اینکه هوش مصنوعی میتواند روی موقعیتهای خطرناکی که ممکن است با آن رو به رو شویم نظارت داشته باشد.
تأثیر بر حریم شخصی
دادههای جدید این چنینی، فرصتهای مثبت متعددی به همراه دارد. اما به همین نسبت احتمال زیادهروی یا تجاوز در حریم شخصی افراد نیز محتمل است. همانگونه که مشاهده میشود، کاربران با مبادله حجم زیادی از اطلاعات شخصی خود در ازای دسترسی به محصولات رایگان – نظیر شبکههای اجتماعی و موتورهای جستجو – بسیار راضی هستند. این مورد در آینده بیشتر به چشم میآید و احتمال خطر نیز بیشتر میشود. به این دلیل که شناخت هوش مصنوعی از ما بیشتر شده و ما را در جنبههای مختلفی از زندگی روزمرهمان حمایت میکند.
اگر اجازه دهیم این صنعت به گسترش دادههای خود در تمام جنبههای زندگی، حتی در موارد آفلاین نیز ادامه خواهد داد. صاحبنظران و سیاستگذارن این عرصه باید چشمانداز جدید را درک کنند و مطمئن شوند که موازنهای بین مزایا و خطرات آن برقرار است. آنها نه تنها میبایست بر قدرت و شیوع مدلهای نوین هوش مصنوعی نظارت داشته باشند بلکه میبایست به دادههای جمعآوری شده توسط آنان را نیز توجه کنند.
هنگامیکه هوش مصنوعی قابلیتهای خود را به حوزه جدید – جهانی واقعی – گسترش دهد، تنها تصورات ما هستند که چشماندازها و امکانات را محدود میکنند.
قابلیت های هوش مصنوعی جمنای چیست؟
مدلهای جمنای گوگل توانایی انجام کارهای زیادی را در حالات یا Modality-های گوناگون نظیر درک متن، عکس، صدا و ویدیو دارا هستند. ماهیت Multimodal بودن جمنای همچنین، تلفیق حالات مختلف را به منظور درک و تولید خروجی، امکانپذیر میکند.
کارهایی که هوش منصوعی جمنای میتواند انجام دهد را در ادامه، بیان کردهایم.
- خلاصهسازی متن: مدلهای هوش مصنوعی جمنای میتوانند محتوا – شامل انواع گوناگون دادهای – را خلاصه کنند.
- تولید متن: Gemini بر اساس پرامپت واردشده توسط کاربر میتواند متنی را تولید کند. این متن همچنین میتواند بهوسیله رابط چتبات – از نوع Q/A – هدایت شود.
- ترجمه متن: مدلهای جمنای قابلیتهای چندزبانی جامعی دارند که ترجمه و درک بیش از ۱۰۰ زبان را فراهم میکند.
- درک تصویر: Gemini میتواند تصاویر پیچیده نظیر نمودارها، اَشکال و غیره را بدون ابزارهای OCR خارجی تجزیه کند. این قابلیت را میتوان برای توضیحنویسی تصاویر و توانایی پرسش و پاسخ تصویری بهکار برد.
- پردازش صدا: جمنای توانایی تشخیص گفتار را در بیش از ۱۰۰ زبان و کارهای ترجمه صوتی را دارد.
- درک ویدیو: Gemini میتواند فریمهای ویدیویی را برای پاسخ دادن به پرسشها و تولید توضیحات، پردازش و درک کند.
- «استدلال چندوجهی» (Multimodal Reasoning): توانمندی اصلی جمنای، استدلال چندوجهی آن است. بهطوریکه انواع گوناگونی از دادهها میتوانند برای یک پرامپت با هم ترکیب شوند تا به خروجی دست یابیم.
- تولید و تحلیل کدها: هوش مصنوعی Gemini میتواند کدهای زبانهای برنامهنویسی معروف نظیر پایتون، جاوا، C++ و Go را تولید کند، بفهمد و توضیح دهد.
نحوه کارکرد هوش مصنوعی جمنای چیست؟
هوش مصنوعی Gemini، نخست با دادههای بسیار زیادی آموزش میبیند. پس از فرایند Training، این مدل با استفاده از روشهای مختلف شبکههای عصبی، میتواند محتوا را بفهمد، بهپرسشها پاسخ دهد، متنی را تولید و خروجی را به ما عرضه کند.
LLM-های جمنای بهطور خاص از معماری شبکه عصبی مبتنی بر مدل ترانسفورمر استفاده میکنند. معماری Gemini، بهبود یافته است تا بتواند دنبالههای طولانی زمینهای در انواع گوناگون دادهای نظیر متن، صدا و ویدیو را پردازش کند. DeepMind گوگل از «مکانیزمهای توجه کارآمد» (Efficient Attention Mechanisms) در دیکودرهای ترانسفورمر استفاده کرده است تا به مدلها در پردازش زمینههای طولانی کمک کند که در برگیرنده «حالات» (Modalities) مختلف است.
مدلهای Gemini روی دیتاستهای متنوع چندوجهی و چند زبانه از متن، عکس، صدا و ویدیو با گوگل دیپمایند – و با استفاده از پایش پیشرفته دادهها برای بهینهسازی آموزش – آموزش دیدهاند. با توجه به اینکه مدلهای گوناگون جمنای به منظور پشتیبانی از سرویسهای مخصوص گوگل راهاندازی – یا مستقر – میشوند، فرایند Fine-Tuning هدفمندی وجود دارد که میتواند برای بهینهسازی بیشتر یک مدل برای یک کاربرد، مورد استفاده قرار گیرد. جمنای در طی مراحل آموزش و استنتاج از بهکارگیری جدیدترین تراشههای TPUv5 گوگل سود میبرد. این تراشهها در واقع، شتابگرهای هوش مصنوعی سفارشیشده و بهبودیافتهای هستند که با هدف آموزش و استقرار کارآمد مدلهای بزرگ طراحی شدهاند.
چالش اصلی در سر راه LLM-ها، ریسک «جانبداری» (Bias) و محتوای احتمالا خطرناک است. با توجه به گفتههای گوگل، جمنای، آزمایشهای ایمنی گسترده و کاهش خطراتی نظیر Bias و مضر بودن را پشت سر گذاشته است تا سطحی از امنیت LLM-ها را فراهم کند. برای کسب اطمینان بیشتر از عملکرد هوش مصنوعی جمنای، این مدلها روی بنچمارکهای آکادمیکی آزمایش شدند که حوزههای زبان، تصویر، صدا، ویدیو وکد را در بر میگیرند.
چه اپلیکیشن هایی از جمنای استفاده می کنند؟
همانطور که بیان شد، جمنای بهوسیله شرکت گوگل و بهعنوان مدلی بنیادین توسعه یافت و بهطور گستردهای در سرویسهای گوگل ادغام شده است. Gemini همچنین در اختیار توسعهدهندگان قرار گرفته است تا اپلیکیشنها خود را ایجاد کنند.
اپلیکیشنهایی که هوش مصنوعی جمنای را بهکار گرفتهاند، در ادامه آوردهایم.
- گوگل بارد: سرویس هوش مصنوعی محاورهای گوگل از نسخه Fine-Tune شده – یا بهبودیافته – جمنای پرو برای قابلیتهای چتبات و استدلال پیشرفته استفاده میکند.
- آلفا کد ۲ (AlphaCode 2): ابزار تولید کد آلفا کد ۲ از DeepMind گوگل، نسخه سفارشیشده جمنای پرو را مورد استفاده قرار میدهد.
- اندروید ۱۴: Pixcel 8 Pro، نخستین گوشی هوشمند تلفن همراهی است که از Gemini سود میبرد. توسعهدهندگان اندروید میتوانند با جمنای نانو از طریق قابلیت سیستم AICore برنامههای خود را بسازند.
- «استدیو هوش مصنوعی گوگل» (Google AI Studio): توسعه دهندگان قادر خواهند بود تا با استفاده از ابزار مبتنی بر وب Google AI Studio، اپلیکیشنهای خود را با Gemini بسازند.
- جست و جو: گوگل به منظور کاهش تأخیر و افزایش کیفیت، در حال آزمایش بهکارگیری جمنای در Search Generative Experience خود است.
آیا هوش مصنوعی Gemini بهتر از GPT است؟
با افزایش تقاضا برای مدلهای LLM و راهکارهای هوش مصنوعی مولد، رقیبهای گوناگونی در این بازار در مقابل گوگل قرار دارند. بسیاری از مدلهای نوظهور میتوانند عملکرد بهتری از جمنای داشته باشند، بهویژه اگر به پیشرفت خود ادامه دهند. فالکون 180B نمونهای از این مدلها است. با اینحال، بسیاری از علاقهمندان به فناوری، تمایل به پرسیدن این سوال دارند که آیا جمنای بهتر از GPT-4 است یا خیر.
GPT-4 مدل زبانی بزرگ و چندوجهی شرکت OpenAI، بهطور معمول، معیار – یا بنچمارکی – است که تمامی توسعهدهندگان از آن برای ارزشیابی قابلیتهای LLM-های جدید بهره میبرند.
خوشبختانه گوگل مقایسه کارایی جمنای و جی پی تی ۴ را با نمودارهای ساده موجود در صفحه «+» بسیار ساده کرده است. به گفته گوگل، GPT-4 تنها در حوزهای – بهنام HellaSwag Reasoning یا استدلال عقلانی – از جمنای عملکرد بهتری از خود نشان داده است. GPT-4 در این مورد امتیازی برابر با ۹۵٫۳٪ کسب کرده، در حالیکه امتیاز جمنای ۸۷٫۸٪ شده است.
در سایر زمینهها، جمنای اولترا نسبت به GPT-4 دارای برتری است. در ادامه جدولی شامل آمار مربوط به «متن» را آوردهایم.
قابلیت | بنچمارک | جمنای اولترا | جی پی تی ۴ |
عمومی | MMLU (ارائه پرسشهای گوناگون در ۵۷ موضوع) | ٪۹۰٫۰ | ٪۸۶٫۴ |
Big-Bench Hard (کارهای پیچیده و نیازمند استدلال چندگامی) | ٪۸۳٫۶ | ٪۸۳٫۱ | |
استدلال | DROP (درک مطلب) | ٪۸۲٫۴ | ٪۸۰٫۹ |
GSM8K (محاسبات مقدماتی) | ٪۹۴٫۴ | ٪۹۲٫۰ | |
ریاضیات | MATH (مسائل پیچیده ریاضی) | ٪۵۳٫۲ | ٪۵۲٫۹ |
کدنویسی | HumanEval (تولید کدهای پایتون) | ٪۷۴٫۴ | ٪۶۷٫۰ |
Natural2Code (تولید کدهای پایتون) | ٪۷۴٫۹ | ٪۷۳٫۹ |
با اینکه این آمار، تنها قدرت جمنای اولترا را نشان میدهد اما باید گفت که گوگل دریافته است که جمنای – بهطور کلی – در وظایف چندوجهی بهتر از GPT-4 عمل میکند. به یاد داشته باشید که GPT-4 با اینکه چندوجهی است اما تنها قادر به پردازش متن و تصاویر است. از سویی دگیر Gemini را داریم که میتواند ویدیو، صدا، عکس و متون را پردازش کند. با توجه به اینکه گوگل به آموزش ابزارهای خود ادامه میدهد، این امکان وجود دارد که از کارایی سایر مدلها فراتر رود.
دلیل متمایز بودن هوش مصنوعی جمنای چیست؟
زمانیکه گوگل، هوش مصنوعی جمنای را بهطور عمومی معرفی کرد، بنیانگذار آن بیان کرد که این مدل، قابلیتهای پیشرفتهتری در حل مسئله و استدلال هوشمند فراهم خواهد کرد. او همچنین اعلام کرد که جمنای در مقابل Google Search، ممکن است از حافظه برای تصدیق حقایق منابع و از یادگیری تقویتی بهبودیافته برای کاهش محتوای غیرواقعی استفاده کند. هرچند که این مورد هنوز تأیید نشده است.
چیزی که میدانیم این است که هوش مصنوعی جمنای گوگل، خود را از چندین جنبه – مثل معماری – از رقیبهایش در بازار LLM متمایز کرده است. تا پیش از این، روش معمول برای ایجاد مدلهای چندوجهی به این صورت بوده که مؤلفههای گوناگونی را برای مدلهای مختلف آموزش داده و سپس با هم تلفیق میکنند.
هوش مصنوعی جمنای بهگونهای طراحی شده است تا بهطور ذاتی Multimodal یا چندوجهی باشد. این سیستم هوش مصنوعی، روی حالات گوناگون، آموزش دیده و پس از آن نیز با دادههای چندوجهی اضافی، بهطور دقیق، تنظیم یا به اصطلاح Fine-Tuned شده است.
هوش مصنوعی جمنای در چه حوزه هایی کارآمد است؟
در ادامه – تنها برخی و نه همه – زمینههایی که هوش مصنوعی جمنای در آنها کارآمدی بالایی ارائه میدهد را بیان کردهایم.
استدلال پیشرفته چندوجهی
قابلیتهای «استدلال پیشرفته چندوجهی» (Sophisticated Multimodal Reasoning) از هوش مصنوعی جمنای – نسخه ۱ – به این معنا است که این مدل میتواند اطلاعات نوشتاری و بصری پیچیدهتری را بفهمد. همچنین بهطرز بینظیری در بیرون کشیدن نکات و بینشها از حجم وسیعی از دادهها مهارت دارد. این ابزار حتیمیتواند با غربال صدها هزار سند بینشهای نوآورانهای را با سرعتی باورنکردنی از آنها کسب کند.
همچنین، به دلیل اینکه Gemini میتواند بهطور همزمان تصاویر، متون، صدا و غیره را درک کند، برای فهمیدن اطلاعات – مفصل و با جزئیات دقیق – بهکار میرود. ضمن اینکه میتواند به پرسشهای پیچیده پاسخ دهد و ما را در امور مختلف نظیر ریاضیات و فیزیک یاری دهد.
کدنویسی پیشرفته
نخستین نسخه از Gemini میتواند کدهایی با کیفیت را به محبوبترین زبانهای برنامهنویسی دنیا – نظیر جاوا، C++ و Go ایجاد و درک کند. همچنین میتواند این کدها را توشیح دهد. جمنای در بنچمارکهای مختلف مربوط به کدنویسی عملکردی عالی ارائه کرده است و میتواند به عنوان موتوری برای سیستمهای «کدنویسی پیشرفته» (Advanced Coding) مورد استفاده قرار گیرد.
بهطور مثال، گوگل AlphaCode را ۲ سال پیش بهعنوان اولین سیستم کدنویسی با هوش مصنوعی عرضه کرد که در رقابتهای برنامهنویسی عملکرد خوبی از خود نشان داد. گوگل با بهکارگیری نسخهای خاص از Gemini ، آلفاکد ۲ را ساختهاست که نتایج بهتری را فراهم میکند.
این مدل جدید در مقایسه با آلفا کد اصلی، مسائل بیشتری را حل میکند – تبهطور تقریبی ۲ برابر – و نسبت به ۸۵٪ شرکتکنندگان عملکرد بهتری از خود به نمایش گذاشته است.
به گفته گوگل، جمنای ۱ در مقیاسی بزرگ روی زیرساخت بهینهشده هوش مصنوعی و با بهکارگیری واحدهای پردازشی تنسور یا همان TPU-های انحصاری آموزش دیده است. جمنای روی TPU-ها سریعتر از مدلهای کوچکتر و کمقدرتتر اجرا میشود.
سوالات متداول
اکنون که یاد گرفتیم هوش مصنوعی جمنای چیست، خوب است تا با برخی از سوالات رایجی که ممکن است برایتان پیش آمده باشد، بههمراه پاسخهای متناظرشان را با هم مرور کنیم.
تلفظ هوش مصنوعی جمنای چیست؟
هوش مصنوعی Gemini بهصورت «جِمِنای» تلفظ میشود.
نسخه های مختلف هوش مصنوعی جمنای چیست؟
هوش مصنوعی جمنای شامل نسخههای نانو، پرو و اولترا است.
- جمنای Nano: کارآمدترین مدل برای انجام کارها روی دستگاه بهشمار میرود.
- جمنای Pro: مناسبترین مدل برای توسعه در طیف گستردهای از کارها است.
- جمنای Ultra: بزرگترین و قدرتمندترین مدل که برای کارهای بهشدت پیچیده مورد استفاده قرار میگیرد.
توسعهدهندگان بهزودی میتوانند به TPU ابری v5p برای آموزش مدلهای پیشرفته هوش مصنوعی خود دسترسی داشته باشند.با توجه به گفتههای شرکت، این مورد، توسعه جمنای را سرعت بخشیده و به مشتریان شرکتی کمک میکند تا راهکارهای AI خود را ایجاد کنند.
پیشرفت های فنی هوش مصنوعی جمنای چیست؟
از پیشرفتهای تکنیکال هوش مصنوعی Gemini گوگل میتوانیم به قابلیتهای چندوجهی بودن، استدلال پیشرفته، بنچمارکهای عملکرد عالی، زیرساخت مقیاسپذیر و کارآمد و کاربردهای متنوع آن اشاره کنیم.
توسعه دهنده هوش مصنوعی جمنای کیست؟
هوش مصنوعی Gemini توسط گوگل و آلفابت – شرکت مادر گوگل – ساخته شده و بهعنوان پیشرفتهترین مدل هوش مصنوعی گوگل تا این لحظه، منتشر شده است. دیپمایند نیز مشارکت قابل توجهی در توسعه جمنای داشته است.
نحوه دسترسی به هوش مصنوعی جنمای چیست؟
Genemi در حال حاضر روی محصولات گوگل در نسخههای نانو و پرو – مانند گوشی تلفنهمراه Pixel 8 و چتبات Bard موجود است. گوگل میخواهد در طول زمان، جمنای را در قسمتهای جست و جو، کروم، تبلیغات و سایر سرویسهای خود نیز ادغام کند.
جمعبندی
برای بررسی و تجربه هوش مصنوعی جمنای و نسخه اولترای آن، میبایست مدتی منتظر بمانیم. تا این لحظه، بهنظر میرسد که غول فناوری گوگل در راستای رسیدن به هدف خود و بهدست گرفتن مجدد بازار حوزه هوش مصنوعی، در مسیر درستی قرار گرفته است.
به نظر میرسد که جمنای، معیاری جدید برای مسیر هوش مصنوعی گوگل ایجاد کرده است. به گفته این شرکت، Gemini بیانگر شروع عصر جدیدی در توسعه LLM-ها است. بر اساس عقیدهای که گوگل دارد، ما در مسیر آیندهای هستیم که بهوسیله هوش مصنوعی «مسئولیتپذیر» قدرت میگیرد.
آنها همچنین میگویند که این آینده راهی را برای مراحل جدیدی از نوآوری، خلاقیت و بهاشتراکگذاری دانش برای میلیاردها نفر در سراسر جهان ایجاد خواهد کرد. شگفتانگیز است که بببینم نسل بعدی توسعهدهندگان با راهکاری به قدرتمندی گوگل جمنای به چه مواردی دست خواهند یافت. در این مطلب از مجله فرادرس سعی کردیم تا به زبانی ساده بگوییم که هوش مصنوعی جمنای چیست و شامل چه مؤلفههایی است. همچنین معماری و قابلیتهای آن را نیز بیان کردیم.
source