OpenAI مدلهای گفتاری و نوشتاری جدیدی برای ایجنتهای هوش مصنوعی معرفی کرد
فناوری
بزرگنمايي:
آریا جوان - دیجیاتو / البته OpenAI در حال حاضر قصد ندارد این مدلهای جدید را به صورت عمومی منتشر کند.
OpenAI از ارتقاء مدلهای هوش مصنوعی خود در زمینه تبدیل گفتار به متن و متن به گفتار خبر داد. این مدلهای جدید که به API این شرکت اضافه شدهاند، نسبت به نسخههای قبلی پیشرفتهای قابلتوجهی داشتهاند و قابلیتهای بیشتری را در اختیار توسعهدهندگان قرار میدهند.
به گفته OpenAI، این مدلهای جدید بخشی از چشمانداز بزرگتر این شرکت برای ساخت سیستمهای خودکار یا «عاملهای هوشمند» هستند که میتوانند بهطور مستقل وظایف مختلفی را برای کاربران انجام دهند. «اولیویه گودمن»، مدیر محصول اوپنایآی، در این باره به TechCrunch توضیح داده که این ایجنتها میتوانند بهعنوان چتباتهایی عمل کنند که با مشتریان یک کسبوکار تعامل میکنند. او پیشبینی کرد که در ماههای آینده شاهد ظهور تعداد بیشتری از این عاملها خواهیم بود.
مدل تبدیل متن به گفتار OpenAI
مدل جدید تبدیل متن به گفتار OpenAI با نام gpt-4o-mini-tts، نه تنها گفتاری طبیعیتر و با جزئیات بیشتر تولید میکند، بلکه قابلیت تنظیم دقیقتری نیز دارد. توسعهدهندگان میتوانند با استفاده از دستورات زبان طبیعی، نحوه بیان متن را کنترل کنند.
بهعنوان مثال، میتوان از این مدل خواست که مانند یک «دانشمند دیوانه» یا با صدایی آرام و شبیه به یک معلم صحبت کند. یک نمونه از صداهای تولید شده توسط این مدل را در ادامه میتوانید بشنوید:
بازار

«جف هریس»، یکی از اعضای تیم محصول OpenAI، تأکید کرده که هدف این است که توسعهدهندگان بتوانند هم «تجربه صوتی» و هم «زمینه» را به دلخواه خود تنظیم کنند. او میگوید:
«در موقعیتهای مختلف، شما نمیخواهید که صدایی یکنواخت و بدون احساس شنیده شود. مثلاً اگر در یک تجربه پشتیبانی مشتری هستید و میخواهید صدای ربات عذرخواهی کند، میتوانید به مدل دستور دهید که این احساس را در صدا لحاظ کند.»
مدلهای تبدیل گفتار به متن
OpenAI همچنین دو مدل جدید تبدیل گفتار به متن با نامهای gpt-4o-transcribe و gpt-4o-mini-transcribe را معرفی کرده است که جایگزین مدل قدیمی Whisper میشوند. این مدلهای جدید که روی مجموعه دادههای صوتی متنوع و باکیفیت آموزش دیدهاند، میتوانند صداهای با لهجههای مختلف و حتی در محیطهای شلوغ را با دقت بیشتری تشخیص دهند.
هریس همچنین اشاره کرده که این مدلها کمتر از Whisper دچار خطاهای «توهم» میشوند. مدل Whisper گاهی اوقات کلمات یا حتی جملات کاملی را که وجود نداشتند، به متن اضافه میکرد که این موضوع میتوانست مشکلاتی را ایجاد کند. او میگوید:
«این مدلها در مقایسه با Whisper بهبود چشمگیری داشتهاند. دقت مدلها برای ایجاد یک تجربه صوتی قابل اعتماد کاملاً ضروری است و دقت در اینجا به این معناست که مدلها کلمات را به درستی تشخیص میدهند و جزئیاتی که نشنیدهاند را به متن اضافه نمیکنند.»

بااینحال، دقت این مدلها ممکن است بسته به زبانی که تبدیل میشود، متفاوت باشد.
برخلاف رویه گذشته، OpenAI قصد ندارد این مدلهای جدید تبدیل گفتار به متن خود را بهصورت عمومی منتشر کند. این شرکت پیشتر نسخههای جدید Whisper را تحت مجوز MIT برای استفاده تجاری منتشر میکرد. هریس توضیح داده که مدلهای جدید بسیار بزرگتر از Whisper هستند و بنابراین برای انتشار عمومی مناسب نیستند. او میگوید:
«این مدلها از نوعی نیستند که بتوانید به راحتی روی لپتاپ خود اجرا کنید. ما میخواهیم اگر چیزی را بهصورت متنباز منتشر میکنیم، با دقت این کار را انجام دهیم و مدلی را ارائه کنیم که واقعاً برای آن نیاز خاص مناسب باشد.»
-
جمعه ۱ فروردين ۱۴۰۴ - ۱۵:۴۴:۴۷
-
۱۱ بازديد
-

-
آریا جوان
لینک کوتاه:
https://www.aryajavan.ir/Fa/News/1473023/