Soul App, Çoklu Konuşmacılı ve Doğal Ses Teknolojisi Sunan SoulX Podcast'i Açık Kaynak Olarak Yayınladı
SoulX Podcast Açık Kaynak Kodlarıyla Erişime Açıldı

SoulX Podcast Açık Kaynak Kodlarıyla Erişime Açıldı
Yapay zeka tabanlı sosyal platform Soul App, ses sentezleme (Text
- to-Speech - TTS) teknolojisinde önemli bir adım atarak SoulX Podcast projesinin kodlarını açık kaynak olarak paylaştı. GitHub üzerinden erişilebilen proje, geliştiricilere ve ses teknolojisi meraklılarına ileri seviye özellikler sunuyor.
- shot" ses klonlama yeteneği. Bu özellik sayesinde, sistem daha önce eğitiminde kullanılmamış bir ses örneğinden yola çıkarak, çok az veriyle bile o sesi klonlayabilior ve metni o ses tonunda okuyabiliyor. Ayrıca, tek bir ses dosyası içinde birden fazla konuşmacının diyalogunu farklı seslerle canlandırabilen çoklu konuşmacı (multi-speaker) desteği de mevcut.
60 Dakikalık Akıcılık ve Doğal İfadeler
SoulX Podcast'in öne çıkan özellikleri arasında, tek seferde 60 dakikaya kadar kesintisiz ve akıcı konuşma üretme kapasitesi bulunuyor. Model, metni sese dönüştürürken insan konuşmasına özgü doğallığı yakalayabiliyor. Bu doğallığı sağlamak için sistem, konuşma içine kahkaha gibi duygusal ifadeleri ve çeşitli lehçeleri otomatik olarak yerleştirebiliyor.
Sıfırdan Ses Klonlama ve Çoklu Konuşmacı Desteği
Teknolojinin bir diğer dikkat çeken yönü ise "zero
Projenin tamamen çalışır durumdaki demo sürümü ve tüm kaynak kodları, ilgili GitHub deposundan geliştiricilerin incelemesine ve katkıda bulunmasına açık hale getirildi. Bu hamle, ses teknolojisi alanındaki açık inovasyonu hızlandırmayı hedefliyor.
HaberGo Editor ve Muhabır ekibi
