معمایی که هوش مصنوعی از حل آن عاجز ماند / می‌توانید پاسخ درست را بیابید؟

به گزارش خبرآنلاین، مطالعه پژوهشگران UCL که نتایج آن در مجله Royal Society Open Science منتشر شده؛ نشان می‌دهد که پاسخ پلتفرم‌هایی که از هوش مصنوعی برای حل مسئله استفاده می‌کنند، با یکدیگر تفاوت دارند. این نکته بیانگر درک نادرست هوش مصنوعی از مسائل است؛ بنابراین فناوری هوش مصنوعی به اصلاحات بیشتری نیاز دارد تا عملکرد بالاتری را از خود به نمایش بگذارد.

به نقل از هوشیو، پژوهشگران UCL در پژوهش خود به منظور سنجش ظرفیت استدلال هوش مصنوعی، آزمون‌های روانشناسی و روان‌شناختی را روی پیشرفته‌ترین مدل‌های زبانی بزرگ (LLM) به‌کاررفته در پلتفرم‌های موجود انجام داده‌اند. نتایج این مطالعه نشان می‌دهد؛ زمانی که آزمون استدلالی مشابهی از پلتفرم‌های مبتنی بر هوش مصنوعی مانند ChatGPT گرفته شود؛ پاسخ‌های متفاوتی دریافت خواهد شد.

یکی از این آزمون‌ها، مسئله واسون بود. قانون مسئله از این قرار است که اگر حرف صداداری در یک‌طرف کارت قرار داشته باشد، در روی دیگر کارت عددی زوج درج شده است. شما چهار کارت الف، ب، ج و د را می‌بینید:

الف- E

ب- K

ج- 4

د- 7

تحت هر شرایط، کدام کارت (یا کارت‌ها) را حتما باید برگردانیم تا از درستی قانون مسئله مطمئن شویم؟

به جز هوش مصنوعی GPT-4 که پیشرفته‌ترین مدل هوش مصنوعی در حال حاضر به شمار می‌رود و توانست امتیاز ۹۰٪ کسب کند، بقیه مدل‌های مانند گوگل جمینی و Llama 2 70b (متا) فقط در ۱۰ درصد آزمون‌ها توانستند پاسخ درست بدهند.

نتایج عجیب!

یکی از دستاوردهای بزرگ این نتایج، یادآوری این نکته مهم است که پیش از استفاده از این پلتفرم‌ها می‌بایست نحوه درک و استدلال آن‌ها را به‌خوبی بشناسیم و آن‌ها را به‌گونه‌ای بهبود و ارتقا دهیم که بهترین بازدهی را برای ما به همراه داشته باشند.

سؤال دیگر آن است که آیا پلتفرم‌های مبتنی بر هوش مصنوعی خطرناکند؟ در سال‌های اخیر LLMهای پیچیده و کارایی برای پلتفرم‌هایی مانند ChatGPT به کار گرفته شده‌اند. این LLMها از توانایی بالایی برای تولید متن، تصاویر، صدا و ویدئوهای نزدیک به واقعیت برخوردارند که باعث ایجاد نگرانی‌هایی در مورد حذف مشاغل، تأثیر مخرب بر نتایج انتخابات و سایر جرائم شده‌اند. تنها نکته‌ای که کمی از این نگرانی‌ها می‌کاهد، عدم تکامل هوش مصنوعی است، چراکه در پاسخ به برخی مسائل با تناقض و اشتباه همراه است.

پژوهشگران UCL در مطالعه خو، هفت LLM را که در سال‌های اخیر مورداستفاده قرار گرفته‌اند، با مجموعه‌ای از 12 تست رایج روانشناسی و روان‌شناختی که انسان‌ها از توانایی کمی برای حل آن‌ها برخوردارند -ازجمله مسئله واسون (Wason)، مسئله لیندا (Linda) و مسئله مونتی هال (Monty Hall)- آزمایش و پاسخ‌های آن‌ها را ارزیابی کرده‌اند.

نتایج بررسی نشان داد که مدل‌های LLM هوش مصنوعی، پاسخ‌هایی غیرمنطقی در مورد مسئله‌ای واحد ارائه می‌دهند. آن‌ها بیان می‌کنند که این مدل‌ها در پاسخ به سؤالی که 10 بار مورد ارزیابی قرار گرفته، پاسخ‌های متناقضی ارائه کرده‌اند. اشتباه در عملیات ریاضی نظیر جمع، تشخیص اشتباه حروف صامت و صدادار به جای یکدیگر و … ازجمله اشتباهات LLMها عنوان شده‌ که باعث ایجاد پاسخ نادرست شده‌اند.

پژوهشگران چنین نتیجه گرفته‌اند که اساس نتایج مطالعه و سایر تحقیقات در مورد مدل‌های زبان بزرگ، نشان‌دهنده آن است که این مدل‌ها هنوز مانند انسان‌ها فکر نمی‌کنند. آن‌ها هم‌چنین اذعان می‌کنند که LLMهایی مانند GPT-4 از عملکرد بالایی در مقایسه با سایر نمونه‌ها برخوردارند. این موضوع نشان می‌دهد که متخصصان هوش مصنوعی در حال بهبود و ارتقاء LLMها هستند. آن‌ها حدس می‌زنند که دلیل عملکرد بهتر LLM در نمونهٔ GPT-4در مقایسه با نمونه‌های کمتر توسعه‌یافته ChatGPT، استفاده از ابزارهایی است که در نمونه‌های قبلی وجود نداشته است.

علاوه بر این نتایج آن‌ها نشان داد که برخی از مدل‌ها از ارائه پاسخ به برخی از سؤالات خودداری کرده‌اند که دلیل آن، مسائل اخلاقی عنوان شده است.

پاسخ مسئله واسون

راستی، پاسخ مسئله واسون از این قرار است: حتما باید کارت‌های الف (E) و د (7) را برگردانیم، زیرا تنها کارت‌هایی هستند که می‌توانند قانون مسئله را نقض کنند.

۵۴۵۴

منبع