Vizualizace zvuku

Michal Lukáč (lukacmi1@fel.cvut.cz)

Zadání

Navrhněte aplikaci pro vizualizaci zvuků tak, aby grafický výstup bylo možné použít k identifikaci a třídění zvuků v audiotéce. Zaměřte se na vybraný druh zvukového záznamu (hudba, řečové nahrávky, jednotlivé vzorky). Otestujte na databázi dostatečného množství zvuků.

Vypracování

Úvod

Obsahová organizace multimediálních materiálů je obecně problematický úkol. Pro obrazová data existuje řada dobře prozkoumaných metrik pro určování podobnosti, které umožňují i ve velkých databázích vyhledávání a prezentaci dat podobných dotazu.

U zvukových nahrávek je něco takového složitější, jelikož například pro hudbu neexistují žádná dobrá objektivní měřítka pro stanovení žánru, s čímž se v případě hudebních dat musejí potýkat například i algoritmy pro strojové učení.

Cílem této práce bude vytvořit systém, který na základě nějakých extrahovaných objektivních metrik dokáže prezentovat hudební nahrávky ze zadané audiotéky takovým způsobem, aby se uživatel mohl na základě vizuální podobnosti orientovat mezi jednotlivými skladbami, mohl takto vyhledávat a případně vytvářet playlisty z podobných skladeb.

Rešerše a návrh

Obecně se bude vizualizace audioknihovny skládat z těchto tří hlavních kroků:

Extrakce dat
Prioritizace metrik
Prezentace dat

Extrakce dat

Extrakce různých smysluplných údajů z hudebního souboru je aktivní oblastí výzkumu. Rychlá rešerše odhalila řadu hotových produktů schopných extrakce různých metrik. Mezi nimi například:

Tyto knihovny podporují extrakci různých údajů z audio souborů. K tomu dochází buď přímo analýzou zvukového signálu, nebo u některých z nich aktivními rešeršemi v internetových audiotékách. Problémem je, že metrik které můžeme extrahovat je řada, a pro naše účely je třeba izolovat ty nejpodstatnější.

Prioritizace metrik

Feature extraction nám sice umožní získat o hudebním souboru mnoho identifikačních údajů, nicméně to co z ní v praxi získáme je popis audiotéky jako sady mnohodimenzionálních bodů, kde počet dimenzí může být v desítkách. Nejenže je vizualizace takovýchto dat problematická, zároveň ale nemáme a priori žádné informace o tom, které z vlastností jsou pro identifikaci významné.

Ve strojovém učení se pro určení kvality diskriminace metriky používá výpočet entropie histogramu - ta nám pro danou proměnnou napoví, zda se v dané učební sadě jednotlivé body touto metrikou od sebe odlišují. Druhou metodou porovnání pak může být výpočet statistické variance, která nám napoví, jaké je rozložení hodnot na normovaném intervalu. Z řady metrik tak vybereme několik málo, u nichž jsou tyto dvě hodnoty maximální.

Vizualizace výsledku

Pro účely vizualizace pak potřebujeme několik málo dimenzí (řádově jich může být kolem deseti, spíš však méně), které pak musíme namapovat na dimenze dostupné k vizualizaci podle významnosti. Inspirací pro účely vizualizace nám bude systém takzvaného vizuálního jukeboxu použitý v systému Musicovery:

Jelikož se budem snažit se držet objektivních metrik, které bývají spojité, budeme jednotlivé hudební nahrávky, potažmo alba, zobrazovat ve trojdimenzionálním prostoru jako jednoduché objekty, a na jejich jednotlivé vlastnosti mapovat údaje z metrik. Zatím budeme uvažovat tyto dimenze pro vizualizaci - pozice (3 dimenze), barva (3 dimenze), orientace (2 nebo 3 dimenze v závislosti na použitém modelu).

Očividně při 3D zobrazování nejsou tyto dimenze všechny stejně vizuálně významné - nejsilněji vnímáme samotnou pozici, následně barvu (v pořadí GRB) a až pak rotaci. Důležitým úkolem tedy je najít mapování z jedné sady dimenzí na druhou tak, aby si důležitostí navzájem odpovídaly.

Údaje z předchozího kroku zde již přestávají stačit. Prosté mapování z dimenze na dimenzi totiž neumí zachytit takové jevy jako kovarianci, které mohou být pro určování podobnosti nebo automatickou klasifikaci velmi významné. Za tímto účelem byla vyvinuta metoda známá jako Principal Components Analysis, která nám dává matematický návod jak na základě pozorovaných kovariancí rozeznat v sadě multidimenzionálních dat význačné trendy. Výstupem této metody je matice bázových vektorů, které reprezentují ortogonální transformaci takovou, že smět s nejvýznamnější lineární kovariancí je mapován na první dimenzi, druhý nejvýznamnější na druhou, atd.. Tuto matici tedy můžeme použít k namapování původních mutlidimenzionálních dat na dimenze vizualizace, aniž bychom však ztratili původní informace.

Návrh

Navrhovaná aplikace bude využívat multidimenzionálních dat získaných analýzou jednak k vizualizaci, druhak pak k vyhledávání podle podobnosti. Uživateli budou záznamy prezentovány jednotlivě nebo sdruženě podle adresářů, promítnuté do vizualizačního prostoru, v němž se uživatel bude moci volně navigovat.

Rozhraní umožní uživateli přehrát danou skladbu, nebo ji zařadit do playlistu. Dále kromě klasické navigace ve 3D prostoru (otáčením a zoomováním) umožní filtraci podle podobnosti buď metodou k-NN (tj. nejbližších sousedů daného bodu) nebo metodou range search (všech sousedů v daném rozsahu), měřeno v původních multidimenzionálních datech buď prostou, nebo váženou euklidovskou metrikou.

Tímto způsobem se bude uživatel moci snadno orientovat ve své vlastní audiotéce na základě intuitivní, vizuální podobnosti.