آریا جوان

آخرين مطالب

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند فناوری

مدل‌های هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم می‌شوند
  بزرگنمايي:

آریا جوان - دیجیاتو / طبق تست‌های OpenAI، 2 مدل استدلا‌ل‌گر جدید این شرکت، o3 و o4-mini، بیشتر از مدل‌های قبلی دچار توهم می‌شوند.
چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.
براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.
بازار
درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدل‌های هوش مصنوعی جدید OpenAI
نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.
OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.

لینک کوتاه:
https://www.aryajavan.ir/Fa/News/1485960/

نظرات شما

ارسال دیدگاه

Protected by FormShield
مخاطبان عزیز به اطلاع می رساند: از این پس با های لایت کردن هر واژه ای در متن خبر می توانید از امکان جستجوی آن عبارت یا واژه در ویکی پدیا و نیز آرشیو این پایگاه بهره مند شوید. این امکان برای اولین بار در پایگاه های خبری - تحلیلی گروه رسانه ای آریا برای مخاطبان عزیز ارائه می شود. امیدواریم این تحول نو در جهت دانش افزایی خوانندگان مفید باشد.

ساير مطالب

سفر به هر کدوم از سیارات منظومه شمسی چقدر طول می‌کشد؟

سفر به تاریخ؛ دو کودک ایرانی و غلام‌بچۀ آفریقایی‌شان در دوران قاجار

حضور جمعی از بازیگران و هنرمندان در مراسم اکران سریال ناریا

قله 8167 متری مقصد بعدی بانوی پزشک ایرانی

حمله فجر به رکورد صدرنشینی و صعود

بررسی ادعای قبض هفت میلیاردی خشکشویی استقلال

آسیب‌دیدگی شدید سردار آزمون؛ مهاجم تیم ملی در بیمارستان

شرکت منتسب به بابک زنجانی روی ریل افتاد

پیش بینی وضعیت جوی و دریایی استان هرمزگان در روز یکشنبه 31 فروردین 1404

بازی Escape from Tarkov پس از 8 سال دسترسی زودهنگام، امسال عرضه خواهد شد

تقویم تاریخ/ رحلت حکیم، ادیب و فقیه فرزانه «آقا نجفی قوچانی»

فرود اضطراری یک هواپیمای آموزشی در بورسا

3 ویتامین مفید برای پوست

چهره ها/ استایل سنتی بازیگر سریال گاندو جلب‌توجه کرد

وقتی که همسرت فود بلاگره!

یامال آقای پاس گل فوتبال اسپانیا!

حمله به صدر جدول با شهاب زاهدی

آرائوخو لباس‌های یامال را مسخره کرد!

احتمال برگزاری اردوی پرسپولیس در ترکیه

بهداد سلیمی: شاید وزنه‌بردار به آسیا اعزام نکنیم

کیمیش بازوبند کاپیتانی را در رختکن جا گذاشت!

ایرادات شورای نگهبان بر طرح مالیات بر سوداگری در دستورکار مجلس

رویترز: ترامپ به نتانیاهو گفته فعلاً تمایلی برای حمایت از اقدام نظامی علیه ایران ندارد

فلاحت‌پیشه: قرار نیست ایران و آمریکا به دو دوست تبدیل شوند

عطاءالله مهاجرانی به وزیر خارجه اسبق آمریکا؛ «جان کری؛ تو هم؟!»

تفال/ خمی که ابروی شوخ تو در کمان انداخت

فال روزانه یکشنبه 31 فروردین 1404

اعتماد به نفس به این میگن

کاپیتان بدون بازوبند سر از پا نمی‌شناسد!

درآمد هنگفت فن‌دایک از کسب‌ و کار متفاوتش!

دکتر عزیزی:  برای بچه آوردن عجول نباشید

عراقچی: هدف اصلی مذاکرات، تامین منافع ملی ایران است

واکنش فضائلی به اینفوگرافی منتشر شده سایت رهبری در دستان نتانیاهو

این روغن خواص ضد پیری دارد

فال حافظ یکشنبه 31 فروردین 1404

رقابت جذاب دوز بین وحید شمسایی و مهران غفوریان

تفاوت فوتسال و فوتبال ایران از نگاه وحید شمسایی

مهران غفوریان: هر چقدر شمسایی برنج نمی خورد شما بخورید

رقابت پانتومیم بین وحید شمسایی و مهران غفوریان

شمسایی: در فوتسال هم صد در صد خرافات وجود دارد

این مرد بدون پاهایش از کوه 1500 متری بالا رفت!

گزینه شماره یک مدیرعاملی پرسپولیس!

شمسایی: اگه بازیکنی زیاد از حد تک روی کند، پرتش می کنم بیرون!

آنچلوتی رفتنیه، سرمربی بعدی کیه؟

چالش انتخاب بازیکن برتر با وحید شمسایی

شمسایی: در استقلال چهاردستگی و باندهای عجیب وجود داشت تا نتوانیم قهرمان آسیا شویم

رقابت ربات‌ با انسان‌ در دوی ماراتن را تماشا کنید

هواوی تراشه هوش مصنوعی Ascend 920 را با وعده عملکردی هم‌سطح با انویدیا H20 معرفی کرد

این 3 ویتامین سبب جوان ماندن پوست می‌شود

خلاصه بازی الجزیره 2 - شباب الاهلی 1