OpenAI Luncurkan Model AI Audio Generasi Terbaru: Lebih Pintar dan Ekspresif
- Sagita Fahrina Putri
- Mar 24
- 2 min read

OpenAI kembali membuat gebrakan di dunia teknologi dengan meluncurkan model AI audio terbaru yang menghadirkan lompatan besar dalam kemampuan pengenalan dan sintesis suara. Rilisan ini mencakup model text-to-speech dan speech-to-text yang jauh lebih canggih dan ekspresif, dirancang untuk memberikan kontrol nada, akurasi transkripsi, serta fleksibilitas tinggi dalam lingkungan berisik atau dengan aksen beragam.
Model Baru: Lebih dari Sekadar Peningkatan
Model text-to-speech terbaru, gpt-4o-mini-tts, memungkinkan pengembang mengontrol cara AI berbicara—termasuk ritme dan ekspresi suara. Ini membuka peluang besar dalam menciptakan pengalaman interaksi suara yang lebih manusiawi dan alami.
Sementara itu, dua model speech-to-text baru, gpt-4o-transcribe dan gpt-4o-mini-transcribe, menunjukkan performa lebih tinggi dibandingkan model sebelumnya seperti Whisper. Kedua model ini unggul dalam menangani transkripsi di lingkungan berisik dan dengan berbagai aksen, sangat cocok untuk layanan pelanggan, pembuatan konten, serta alat bantu aksesibilitas.
Lebih Mudah Diakses oleh Pengembang
OpenAI telah merilis model ini dalam format API dan tersedia di Agents SDK, menjadikannya lebih mudah untuk diintegrasikan ke dalam berbagai aplikasi. Biaya yang ditawarkan juga kompetitif, dengan harga mulai dari $0,003 per menit untuk transkripsi hingga $0,015 per menit untuk text-to-speech.
Untuk mendukung pengujian publik dan kreativitas komunitas, OpenAI juga meluncurkan OpenAI FM, sebuah platform interaktif untuk mencoba kemampuan text-to-speech. Selain itu, mereka mengadakan kontes untuk mendorong pengembang mengeksplorasi ide inovatif dengan teknologi ini.
Menuju Agen Suara yang Lebih Pintar
Model ini juga membuka jalan bagi pengembangan voice agents yang lebih canggih—dari asisten virtual seperti Siri atau Alexa, hingga layanan pelanggan otomatis yang mampu berbicara dengan nada empatik dan alami. OpenAI menyebut bahwa peningkatan teknologi ini bertujuan mengurangi kesan "robotik", sehingga interaksi dengan AI terasa lebih manusiawi.
Beberapa perusahaan seperti EliseAI sudah mulai mengintegrasikan model ini ke dalam platform mereka, dan melaporkan interaksi suara yang lebih ekspresif serta responsif.
Dampak dan Masa Depan
Peluncuran ini memperkuat posisi OpenAI dalam persaingan teknologi suara berbasis AI yang semakin ketat. Dengan dukungan komunitas developer dan potensi besar untuk berbagai industri, teknologi suara AI diperkirakan akan memainkan peran penting dalam masa depan interaksi manusia dan mesin.
コメント