Tomas Skopal
homepage

General
Home
prof. C.V.
publications
grants
download
links

Teaching (in czech)
kontakt
přednášky & cvičení
bakalářské projekty
SW projekty
diplomky
PhD studium

 

Diplomky

Pro zájmce o téma:
Mimo vypsaných témat (dole) se můžeme domluvit na tématu šitém na míru, ovšem v oblasti mého zájmu (viz hlavní stránka + publikace). Pro  spolupráci
vyžaduji od studentů vysoké nasazení a frekventované konzultace, prezentace dílčích výsledků (potom mohu i zaručit výborné výsledky u obhajob). V případě flákání nedám zápočet/napíšu negativní posudek.
 

Vypsané/zadané diplomky

Efektivní hledání pivotů pomocí dotazů na nejvzdálenější sousedy
Předmětem DP je návrh a testování efektivního algoritmu pro nalezení pivotů. Pivoti se v indexování podle (metrické) podobnosti používají jako náhrada souřadného systému, tj. objekty metrického prostoru se přes pivoty transformují do vektorového prostoru. Výběr pivotů je pro efektivní indexování důležitým faktorem - záleží nejenom na jejich počtu, ale zejména na jejich distribuci v prostoru. Jednou z možností, jak rychle hledat dobře distribuované pivoty může být použití dotazu na k nejvzdálenějších sousedů.
zatím nezadáno

Modifikace metody Pivot Tables pro perzistentní metrické indexování
Předmětem DP je vylepšení indexační metody pivot tables (PT), které využije předshlukování dat jinou indexační strukturou - M-stromem. Klasická metoda PT sestává ze dvou struktur - matice vzdáleností mezi pivoty a objekty databáze a samotného datového souboru. Implementace metody PT předpokládá uložení obou struktur v hlavní paměti. Cílem práce je metodu PT zobecnit spravováním datového souboru v sekundární paměti, a tím zvýšit její škálovatelnost. Zde ovšem nastává problém nadměrného zatížení disku v případě, kdy je během vyhledávání potřeba přistupovat na disk do datového souboru. Díky libovolnému uspořádání objektů v datovém souboru může docházet k mnoha čtením malých fragmentů z datového souboru, což v důsledku vede k neefektivnosti celé metody. Aby se minimalizoval počet přístupů na disk, modifikovaná varianta PT by měla před vlastním indexováním přeuspořádat vstupní datový soubor tak, aby následné vyhledávání v datovém souboru vedlo k menšímu počtu větších bloků a tím se minimalizovaly náklady na diskové operace. Jako metodu k přeuspořádání datového souboru použijte M-strom, který v tomto případě bude sloužit pouze jako shlukovací metoda. Součástí práce bude experimentální vyhodnocení výkonu klasické a modifikované varianty PT.
zadáno (2010): Juraj Moško

Extrakce objektů z komplexních obrazových scén
Předmětem DP je návrh a implementace architektury a algoritmů pro extrakci maskou zadaného objektu uvnitř složité scény na obrázku (např. identifikace a extrakce obličeje/obličejů na fotografii z kamery). Model masky je hybridní - skládá se jak z geometrických informací, tak informací statistických a jiných. Extrahovaný objekt je dále vhodně zpracován pro potřeby porovnávání s jinými objekty stejného typu (masky). Identifikace objektu ve výsledku poslouží jak k přímému content-based dotazování, tak k automatické anotaci metadaty uživatelsky specifikovanými jako součást masky.
zadáno (2009): Štefan Čudai

Detekce plagiátů v odborných textech
Navrhněte model a heuristiky pro odhalování podobných částí různých odborných textů, na základě podobnosti vět, odstavců, atd. Podobnost je reprezentována editační vzdáleností, LCSS, případně jinými. Zaindexujte pro rychlejší vyhledávání. Odlaďte metodu na kolekci PDF souborů vědeckých textů.
zadáno (2006): David Šinágl

Obhájené diplomky

Nativní indexování rozsáhlých XML databází
Předmětem DP je implementace indexační struktury rho-index, její aplikace pro rozsáhlé XML stromy (databáze). Očekává se rozšíření struktury rho-index o efektivní algoritmy vhodné pro vyhodnocování XPath dotazů, v případně potřeby rozšíření samotné struktury rho-index. Srovnejte výkon implementované struktury s jinými databázemi podporujícími indexaci rozsáhlých XML dat. Implementace v C++ nebo C#.
obhájil (2010): Tomáš Bartoš
        [text práce (PDF)]

Fraktální komprese časových řad
Seznamte se s generováním jednorozměrných fraktálů a prozkoumejte heuristiky pro generování fraktálních distribucí, které se vyskytují v reálných časových řadách. Otestujte jejich použitelnost při kompresi časových řad - a to jak bezeztrátová, tak ztrátové. Porovnejte s klasickými kompresními metodami.
obhájil
(2009): Martin Lysík        [text práce (PDF)]

Externí metrické hašovaní pomocí D-indexu
Použijte metrickou strukturu D-index pro podobnostní vyhledávání ve vysokorozměrných datech. Experimentálně ověřte optimálnost parametrů struktury pro různé distribuce dat. Experimentálně srovnejte se strukturou PM-strom a M-strom.
obhájil
(2009): Jiří Jakl        [text práce (PDF)]

Eliptické indexování vícerozměrných dat
Předmětem DP je návrh a implementace indexační struktury pro indexování vícerozměrných dat. Podobně jako R-strom umožňuje indexovat pomocí MBR (minimálních ohraničujících obdélníků), tato struktura bude založena na hierarchii "eliptických" regionů.
obhájeno (2008): Ondrej Danko        [text práce (PDF)]
Oceněna 4. místem v soutěži IT diplomka roku (www.it-diplomkaroku.cz).

Vícerozměrné indexování pro relační SŘBD
Předmětem DP je realizace složeného (vícerozměrného) indexu v reálném SŘBD. V klasických (komerčních) systémech se konjunktivní intervalový dotaz (tzv. rozsahový dotaz - range query, resp. window query) vyhodnocuje pomocí několika jednoduchých indexů (pro každý atribut existuje jeden index), což je neefektivní díky operacím spojení výsledků z jednotlivých indexů a objemu přenášených dat při těchto operacích. Vícerozměrný index umožňuje zpracovat rozsahový dotaz bez nutnosti spojení, tutíž je efektivnější. Problémem efektivního vyhodnocení rozsahového dotazu se zabývají vícerozměrné přístupové metody (spatial access methods - SAM). V našem případě je každá n-tice příslušných hodnot v databázi (kde n je počet atributů složeného indexu) modelována v n-rozměrném prostoru.
Jelikož daná aplikace SAM zahrnuje indexování/dotazování velkého objemu dat, zvolená metoda (vícerozměrný index) by měla podporovat efektivní perzistenci a vyváženost.
obhájeno
(2006): David Hoksza        [text práce (PDF)]