مطالعه اخیر بسیار جالب است که به طور دقیق عملکرد هوش مصنوعی مولد (AI) را در تشخیص شرایط پزشکی در مقایسه با پزشکان بررسی کرده است. این تحقیق توسط یک گروه به رهبری دکتر هیروتاکا تاکیتا و پروفسور دایجو اوئدا در دانشکده تحصیلات تکمیلی پزشکی دانشگاه متروپولیتن اوزاکا انجام شده است.
Researchers یک سیستماتیک و متاآنالیز پرشمارتی را بررسی کردند که 83 مورد را برای تحلیل دقیقتر انتخاب کرد. نتایج تحقیق، نقاط قوت و ضعف هوش مصنوعی در زمینه سلامت را روشن کرده است. در این مطالعه، مدلهای مختلف هوش مصنوعی مولد مانند GPT-4، Llama3 70B، Gemini 1.5 Pro و Claude 3 Sonnet را در زمینههای مختلف پزشکی بررسی کرده است. GPT-4 در بخش عمده تحقیق به خود اختصاص داده است. به طور کلی، دقت تشخیصی این مدلهای هوش مصنوعی به طور میانگین 52.1% بود (با فاصله اطمینان 95%: 47.0-57.1%). در این میان، برخلاف انتظار، برخی از مدلها تقریباً به اندازه پزشکان غیرمتخصص دقیق بودند، بدون تفاوت آماری قابل توجه (تفاوت دقت: 0.6% [با فاصله اطمینان 95%: -14.5% تا 15.7%]، p=0.93). این در حالی است که پزشکان متخصص همچنان عملکرد بهتری نسبت به هوش مصنوعی داشتند، با اختلاف دقت قابل توجه 15.8% (با فاصله اطمینان 95%: 4.4% تا 27.1%، p=0.007). با توجه به پیشرفتهای موجود، این اختلاف ممکن است فقط مسئله زمان باشد.
مطالعه همچنین نشان داد که هوش مصنوعی در اکثر تخصصهای پزشکی عملکرد مشابهی داشت، با دو استثنا: پوست و اورولوژی. در تخصص پوست، هوش مصنوعی نتایج قویتری نشان داد، احتمالاً به این دلیل که این رشته شامل تشخیص الگوهاست، چیزی که هوش مصنوعی در آن خوب عمل میکند. با این حال، فقدان استدلال پیچیده و تصمیمگیری خاص برای هر بیمار، این نتایج را گسترش نمیدهد. در تخصص اورولوژی، یافتهها بر اساس یک مطالعه بزرگ منفرد بود که تعمیم نتایج را دشوارتر میکند.
هرچند این تحقیق، ممکن است سازگاری خواجه مصنوعی و پزشکان متخصص را تا حدی کاهش دهد، اما هیچ جای شایستایی برای نگرانی درباره فرصتهای مشاغل پزشکان نیست. در حال حاضر، وقتی این تعداد درمانها پیچیدهای است که در آن اطلاعات دقیق بیمار باید مورد استفاده قرار بگیرد، ایمنی آشکار نیست. در اینست که سطح پیشرفتهای موجود در دستگاهها هنگام خارج شدن از این سطح خاص، چه کمی و چه به مقدار زیاد، بازگو میشود.