Soul App, Çoklu Konuşmacılı ve Doğal Ses Teknolojisi Sunan SoulX Podcast'i Açık Kaynak Olarak Yayınladı

SoulX Podcast Açık Kaynak Kodlarıyla Erişime Açıldı

HMHaber Merkezi

Paylaş:

5 okunma

Google News'te Takip Et

Soul App, Çoklu Konuşmacılı ve Doğal Ses Teknolojisi Sunan SoulX Podcast'i Açık Kaynak Olarak Yayınladı

SoulX Podcast Açık Kaynak Kodlarıyla Erişime Açıldı

Yapay zeka tabanlı sosyal platform Soul App, ses sentezleme (Text

to-Speech - TTS) teknolojisinde önemli bir adım atarak SoulX Podcast projesinin kodlarını açık kaynak olarak paylaştı. GitHub üzerinden erişilebilen proje, geliştiricilere ve ses teknolojisi meraklılarına ileri seviye özellikler sunuyor.

60 Dakikalık Akıcılık ve Doğal İfadeler

SoulX Podcast'in öne çıkan özellikleri arasında, tek seferde 60 dakikaya kadar kesintisiz ve akıcı konuşma üretme kapasitesi bulunuyor. Model, metni sese dönüştürürken insan konuşmasına özgü doğallığı yakalayabiliyor. Bu doğallığı sağlamak için sistem, konuşma içine kahkaha gibi duygusal ifadeleri ve çeşitli lehçeleri otomatik olarak yerleştirebiliyor.

Sıfırdan Ses Klonlama ve Çoklu Konuşmacı Desteği

Teknolojinin bir diğer dikkat çeken yönü ise "zero

shot" ses klonlama yeteneği. Bu özellik sayesinde, sistem daha önce eğitiminde kullanılmamış bir ses örneğinden yola çıkarak, çok az veriyle bile o sesi klonlayabilior ve metni o ses tonunda okuyabiliyor. Ayrıca, tek bir ses dosyası içinde birden fazla konuşmacının diyalogunu farklı seslerle canlandırabilen çoklu konuşmacı (multi-speaker) desteği de mevcut.

Projenin tamamen çalışır durumdaki demo sürümü ve tüm kaynak kodları, ilgili GitHub deposundan geliştiricilerin incelemesine ve katkıda bulunmasına açık hale getirildi. Bu hamle, ses teknolojisi alanındaki açık inovasyonu hızlandırmayı hedefliyor.

#Teknoloji

Haber Merkezi

HaberGo Editor ve Muhabır ekibi