Vypsané/zadané diplomky
Efektivní hledání pivotů pomocí
dotazů na nejvzdálenější sousedy
Předmětem DP je návrh a testování efektivního
algoritmu pro nalezení pivotů. Pivoti se v indexování podle (metrické)
podobnosti používají jako náhrada souřadného systému, tj. objekty metrického
prostoru se přes pivoty transformují do vektorového prostoru. Výběr pivotů je
pro efektivní indexování důležitým faktorem - záleží nejenom na jejich počtu,
ale zejména na jejich distribuci v prostoru. Jednou z možností, jak rychle
hledat dobře distribuované pivoty může být použití dotazu na k nejvzdálenějších
sousedů.
zatím nezadáno
Modifikace metody Pivot Tables pro perzistentní metrické
indexování
Předmětem DP je vylepšení
indexační metody pivot tables (PT), které využije předshlukování dat
jinou indexační strukturou - M-stromem. Klasická metoda PT sestává ze
dvou struktur - matice vzdáleností mezi pivoty a objekty databáze a
samotného datového souboru. Implementace metody PT předpokládá uložení
obou struktur v hlavní paměti. Cílem práce je metodu PT zobecnit
spravováním datového souboru v sekundární paměti, a tím zvýšit její
škálovatelnost. Zde ovšem nastává problém nadměrného zatížení disku v
případě, kdy je během vyhledávání potřeba přistupovat na disk do
datového souboru. Díky libovolnému uspořádání objektů v datovém souboru
může docházet k mnoha čtením malých fragmentů z datového souboru, což v
důsledku vede k neefektivnosti celé metody. Aby se minimalizoval počet
přístupů na disk, modifikovaná varianta PT by měla před vlastním
indexováním přeuspořádat vstupní datový soubor tak, aby následné
vyhledávání v datovém souboru vedlo k menšímu počtu větších bloků a tím
se minimalizovaly náklady na diskové operace. Jako metodu k
přeuspořádání datového souboru použijte M-strom, který v tomto případě
bude sloužit pouze jako shlukovací metoda. Součástí práce bude
experimentální vyhodnocení výkonu klasické a modifikované varianty PT.
zadáno
(2010):
Juraj Moško
Extrakce objektů z komplexních
obrazových scén
Předmětem DP je návrh a implementace architektury a
algoritmů pro extrakci maskou zadaného objektu uvnitř složité scény na obrázku (např.
identifikace a extrakce obličeje/obličejů na fotografii z kamery). Model masky
je hybridní - skládá se jak z geometrických informací, tak informací
statistických a jiných. Extrahovaný objekt je dále vhodně zpracován pro potřeby
porovnávání s jinými objekty stejného typu (masky). Identifikace objektu ve
výsledku poslouží jak k přímému content-based dotazování, tak k automatické
anotaci metadaty uživatelsky specifikovanými jako součást masky.
zadáno (2009):
Štefan Čudai
Detekce plagiátů v odborných
textech
Navrhněte model a heuristiky pro
odhalování podobných částí různých odborných textů, na základě podobnosti vět,
odstavců, atd. Podobnost je reprezentována editační vzdáleností, LCSS, případně
jinými. Zaindexujte pro rychlejší vyhledávání. Odlaďte metodu
na kolekci PDF souborů vědeckých textů.
zadáno (2006): David Šinágl
|
Obhájené diplomky
Nativní
indexování rozsáhlých XML databází
Předmětem DP je implementace indexační
struktury rho-index, její aplikace pro rozsáhlé XML stromy (databáze). Očekává
se rozšíření struktury rho-index o efektivní algoritmy vhodné pro vyhodnocování
XPath dotazů, v případně potřeby rozšíření samotné struktury rho-index.
Srovnejte výkon implementované struktury s jinými databázemi podporujícími
indexaci rozsáhlých XML dat. Implementace v C++ nebo C#.
obhájil (2010):
Tomáš Bartoš
[text
práce
(PDF)]
Fraktální komprese časových řad
Seznamte se s generováním jednorozměrných fraktálů a prozkoumejte
heuristiky pro generování fraktálních distribucí, které se vyskytují v reálných
časových řadách. Otestujte jejich použitelnost při kompresi časových řad - a to
jak bezeztrátová, tak ztrátové. Porovnejte s klasickými kompresními metodami.
obhájil (2009): Martin
Lysík
[text
práce
(PDF)]
Externí metrické hašovaní pomocí D-indexu
Použijte metrickou strukturu D-index pro podobnostní vyhledávání
ve vysokorozměrných datech. Experimentálně ověřte optimálnost parametrů
struktury pro různé distribuce dat. Experimentálně srovnejte se strukturou
PM-strom a M-strom.
obhájil (2009): Jiří
Jakl
[text
práce
(PDF)]
Eliptické indexování
vícerozměrných dat
Předmětem DP je návrh a implementace indexační struktury pro
indexování vícerozměrných dat. Podobně jako R-strom umožňuje indexovat pomocí
MBR (minimálních ohraničujících obdélníků), tato struktura bude založena na
hierarchii "eliptických" regionů.
obhájeno
(2008):
Ondrej Danko
[text
práce
(PDF)]
Oceněna 4. místem
v soutěži IT diplomka roku
(www.it-diplomkaroku.cz).
Vícerozměrné indexování pro relační SŘBD
Předmětem DP je realizace složeného (vícerozměrného) indexu v
reálném SŘBD. V klasických (komerčních) systémech se konjunktivní intervalový
dotaz (tzv. rozsahový dotaz - range query, resp. window query) vyhodnocuje
pomocí několika jednoduchých indexů (pro každý atribut existuje jeden index),
což je neefektivní díky operacím spojení výsledků z jednotlivých indexů a
objemu přenášených dat při těchto operacích. Vícerozměrný index umožňuje
zpracovat rozsahový dotaz bez nutnosti spojení, tutíž je efektivnější. Problémem
efektivního vyhodnocení rozsahového dotazu se zabývají vícerozměrné přístupové
metody (spatial access methods - SAM). V našem případě je každá n-tice
příslušných hodnot v databázi (kde n je počet atributů složeného indexu)
modelována v n-rozměrném prostoru.
Jelikož daná aplikace SAM zahrnuje indexování/dotazování velkého objemu dat,
zvolená metoda (vícerozměrný index) by měla podporovat efektivní perzistenci a
vyváženost.
obhájeno
(2006): David Hoksza
[text
práce
(PDF)]
|