Zpřístupnění archivů orální historie, lepší porozumění historickým svědectvím i uplatnění v podcastech či zpravodajství. Za vývoj pokročilých technologií zpracování řeči získali Pavel Ircing a Jan Švec z Fakulty aplikovaných věd Západočeské univerzity v Plzni ocenění Steven Krauwer Award.
Vědci z Fakulty aplikovaných věd Západočeské univerzity v Plzni (FAV ZČU) vyvíjejí systémy, které dokážou automaticky přepisovat a vyhledávat obsah v rozsáhlých zvukových archivech. Jejich technologie usnadňují práci historikům i široké veřejnosti a umožňují zpřístupnit tisíce nahrávek orální historie, mimo jiné i svědectví o holocaustu.
Systémy rozpoznávání řeči, na nichž tým z katedry kybernetiky pracuje, se postupně zlepšily z původní chybovosti 40 % na zhruba 10 %. Kromě přesnějšího přepisu vyvinuli odborníci i vyhledávání, které zvládne nalézt slovo v různých tvarech, foneticky podobné výrazy i obsahově související pasáže. „V nejnovější verzi funguje takzvané sémantické vyhledávání, které dokáže najít úseky relevantní k dotazu, i když se v nahrávce konkrétní slovo vůbec nevysloví,“ vysvětlil Jan Švec.
Výzkumný tým vyvinul také algoritmus pro automatické generování otázek diskutovaných v nahrávkách. Ty se v uživatelském rozhraní zobrazují přehledně a umožňují přímý přístup k příslušným pasážím rozhovorů. Podle Pavla Ircinga technologie najdou uplatnění nejen při zpřístupňování historických archivů, ale i v oblastech, jako jsou podcasty, zpravodajství nebo práce s naskenovanými dokumenty.
Práci na vývoji pokročilých technologií odstartovala účast plzeňských odborníků v projektu MALACH (Multilingual Access to Large Spoken Archives) v roce 2005. Nejen čeští výzkumníci, ale i další mezinárodní týmy se v rámci tohoto projektu snažili vyvinout efektivní metody rozpoznávání řeči a vyhledávání informací. Cílem bylo vytvořit nástroj, který by pomohl odborným i laickým uživatelům zorientovat se v ohromném množství nahrávek, jež shromáždili terénní pracovníci nadace založené Stevenem Spielbergem po dokončení jeho slavného filmu Schindlerův seznam.
Odborníci z FAV tenkrát vyvíjeli především systémy pro automatický přepis nahrávek ve slovanských jazycích a maďarštině. „V době ukončení projektu jsme nedošli k uspokojivému výsledku. Měli jsme k dispozici 115 tisíc hodin nahrávek ve 32 jazycích, přičemž přibližně půlka výpovědí byla v angličtině. A aby se situace ještě více zkomplikovala, u drtivé většiny mluvčích nebyla angličtina jejich rodným jazykem, čili jsme se museli nějak vyrovnat s různou výslovností či přízvukem,” řekl Pavel Ircing.
Za tuto dlouhodobou práci převzali Pavel Ircing a Jan Švec v úterý 30. září ve Vídni na výroční konferenci evropské infrastruktury CLARIN ocenění Steven Krauwer Award. „Cenu jsme sice dostali my dva, ale za výsledky stojí široký tým spolupracovníků z katedry kybernetiky. Zvláštní poděkování patří Josefu Psutkovi, Martinu Bulínovi a Janu Lehečkovi,“ uvedl Pavel Ircing.