Na unikátním projektu mapování nářečí se podílí tým z Fakulty informačních technologií VUT pod vedením Martina Karafiáta. Ve spolupráci s Akademií věd ČR a Univerzitou Palackého v Olomouci vytváří webové stránky, na kterých si bude možné zvolit oblast České republiky a poslechnout si dialekty charakteristické pro dané místo. Projektoý tým navíc nahrávky, které jdou zpět až do 50. let minulého století, kategorizuje podle různých kritérií, například podle témat vyprávění.
Výzkumníci z dialektologického oddělení Ústavu pro jazyk český Akademie věd ČR se dlouhodobě snaží o zmapování a uchování nejrůznějších nářečí napříč Českem. V roce 2023 si na pomoc přizvali i odborníky ze skupiny Speech@FIT, kteří momentálně pracují na tvorbě systému, který by byl schopen dialekt identifikovat. A také vytvořit automatický přepis nahrávek. „Naše řečová skupina má velké úspěchy v oblasti identifikace jazyka, mluvčího a přepisu řeči. Primární myšlenka je tedy dát tyto oblasti dohromady, pracovat s unikátními daty a vytvořit systém, který bude schopen zvuková data automaticky přepisovat, což bude pro výzkumníky z Akademie věd ČR obrovská pomoc. Zejména proto, že jsou data specifická a klasické přepisovače od Googlu či Microsoftu selhávají,” vysvětluje Martin Karafiát z FIT VUT. To potvrzuje i hlavní řešitelka projektu z Ústavu pro jazyk český Akademie věd ČR Marta Šimečková. „Naší snahou je vytvořit sadu nástrojů, které by nám, dialektologům, usnadňovaly práci. Jednak je to software na automatické rozpoznávání konkrétního nářečí na základě audionahrávky, jednak software, který by za nás pořizoval přepis nářečních promluv. Jde přitom o přepisy ve speciální dialektologické transkripci, která se v mnohém liší od spisovného zápisu,” přibližuje Šimečková.
Archiv nářečních nahrávek vzniká už od 50. let minulého století a data pořád přibývají. „Kdysi byl v dialektologickém oddělení jeden kotoučový magnetofon. Navíc byly drahé pásky, takže se šetřilo a nahrávaly se jen malé úseky. Dnes se ale nechá nahrávání běžet i několik hodin. Data uložená na starých zvukových nosičích se ve spolupráci s Českým rozhlasem digitalizovala, následně se anotovala a katalogizovala. Systém katalogizace je ale dnes nevyhovující, a tak se přistoupilo k hloubkové revizi nahrávek a k vytvoření nového, moderního katalogu, ve kterém jsou k datům pořizovány popisky jednotným způsobem. Mimo jiné také informace o jejich obsahu,” popisuje Martin Karafiát.
Archiv nahrávek nářečí vzniká už od 50. let minulého století | Autor: archiv AV ČR
Do budoucna by pak měli být zájemci schopni jednoduše v nahrávkách vyhledávat podle vybraného nářečí i tématu. „Chceme, aby si člověk mohl říct, že ho třeba zajímá, jak zní, když někdo povídá v hanáčtině o pečení chleba. A systém mu obratem takovou nahrávku nabídne,” říká Karafiát. Podle Marty Šimečkové už je většina tradičních nářečí zmapovaná. „Zejména díky sběrům, které proběhly v 60. a 70. letech 20. století. Nahrávky z této doby tvoří jádro našeho zvukového archivu. Jedinými bílými místy je pohraničí, což je oblast nářečně nepůvodní, a tak se tu dříve spíše nezkoumalo. Naší snahou bude hlavně doplnit záznamy z tradičně nářečních oblastí, díky čemuž bude možné sledovat některé posuny dialektů v čase,” dodává.