شرکت OpenAI به عنوان یک شرکت فعال در زمینه هوش مصنوعی، به دنیای مدلهای تقلید صدا وارد شده است. این شرکت اخیراً مدلی به نام Voice Engine را معرفی کرده است که قادر است با استفاده از کلیپهای صوتی ۱۵ ثانیهای، صدای مصنوعی تولید کند. این صداهای تولید شده توسط هوش مصنوعی، قادر به خواندن دستورات متنی به زبانهای مختلف میباشند. البته، این ابزار تاکنون به صورت محدودی در دسترس قرار گرفته است.
در حال حاضر، تنها چند شرکت از جمله Age of Learning و HeyGen به این ابزار جدید OpenAI دسترسی دارند. در نمونههای صوتی که OpenAI منتشر کرده است، میتوان زبانهای مختلفی از جمله انگلیسی، آلمانی، فرانسوی و ژاپنی را مشاهده کرد. در واقع، این ابزار قادر است نه تنها متنهای مختلف را با زبان اصلی فایل صوتی بخواند، بلکه قابلیت خواندن متن به زبانهای دیگر را نیز دارد.
به گفته OpenAI، این شرکت از اواخر سال ۲۰۲۲ به توسعه Voice Engine پرداخته است و اکنون این فناوری در API تبدیل متن به صدا و همچنین قابلیت Read Aloud در چتبات ChatGPT موجود است. به گفته یکی از اعضای تیم Voice Engine به نام “جف هریس”، این ابزار با ترکیب دادههای دارای حق کپیرایت و دادههای عمومی آموزش دیده شده و تنها برای حدود ۱۰ توسعهدهنده قابل دسترسی است.