ChatGPT nově dokáže vidět, slyšet a mluvit

Společnost OpenAI začíná zavádět nové hlasové a obrazové funkce v Chatu GPT. Tyto funkce nabízejí nový, intuitivnější typ rozhraní tím, že umožňují vést hlasovou konverzaci nebo ukázat Chatu GPT, o čem se mluví pomocí obrázku.

Tyto funkce jsou zpřístupněny v ChatGPT uživatelům programu Plus a Enterprise. Hlasová funkce je k dispozici na iOS a Androidu a obrázky budou dostupné na všech platformách.

Pomocí hlasu se lze zapojit do konverzace s asistentem

Nyní se lze pomocí hlasu zapojit do konverzace s asistentem a asistent uživateli i odpoví. S asistentem se dá konverzovat na cestách, debatovat u večeře nebo může vyprávět pohádku. Na výběr je k dispozici 5 různých hlasů.

Nová hlasová funkce je poháněna novým modelem převodu textu na řeč, který je schopen generovat zvuk podobný lidskému zvuku pouze z textu a několika sekund ukázkové řeči. Hlasy byly vytvořeny ve spolupráci s profesionálními hlasovými herci. K přepisu mluvených slov na text je používán Whisper, otevřený systém OpenAI pro rozpoznávání řeči.

Nová hlasová technologie, která je schopná vytvářet realistické syntetické hlasy z pouhých několika sekund skutečné řeči, otevírá dveře mnoha kreativním aplikacím. Tato technologie však také představuje nová rizika, jako je vydávání se za veřejné osobnosti nebo využití k podvodným praktikám. Proto je tato technologie používána pro podporu konkrétního případu použití a to hlasového chatu. Proto byl hlasový chat vytvořen s hlasovými herci spolupracujícími s OpenAI.

Ukázání jednoho nebo více obrázků Chatu GPT

Nyní je možné Chatu GPT ukázat jeden nebo více obrázků. To umožní například odstranit problémy nefungujícího spotřebiče, získání receptu podle fotek ingrediencí v lednici nebo analyzování složitého grafu pro data související s prací. Pro zaměření na konkrétní část obrázku lze využít nástroj pro kreslení v mobilní aplikaci ChatGPT.

Obrázek je rozpoznán díky multimodálním modelům GPT-3.5 a GPT-4. Tyto modely aplikují své schopnosti jazykového uvažování na širokou škálu obrázků, jako jsou fotografie, snímky obrazovky a dokumenty obsahující text i obrázky.

Před širším nasazením byl tento nový model testován ve spolupráci se specialisty na rizikové oblasti, jako je extremismus a vědecká odbornost, a s různorodou sadou alfa testerů. Tento výzkum umožnil sladit klíčové detaily pro zodpovědné používání.

Obrazové a hlasové funkce jsou nasazovány postupně

Cílem OpenAI je vybudovat obecnou umělou inteligenci (AGI), která je bezpečná a přínosná. Postupné zveřejňování nových nástrojů umožní v průběhu času vylepšovat a zdokonalovat tyto nástroje a také zmírnit rizika. Díky tomu budou tyto nástroje připravené na výkonnější systémy v budoucnu.

Zdroj: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak, OpenAI

Košík

Přihlášení