Cílem diplomové práce je vytvoření aplikace včetně uživatelského rozhraní pro demonstraci extrakce dat z webových serverů. Počátek teoretické části se zabývá vysvětlením základních pojmů, principem samotného sběru dat a popisem dostupných nástrojů pro tzv. harvest. Následně je vhodně vybrán jeden z nástrojů, na kterém jsou principy sběru dat realizovány. Práce také obsahuje výhody a nevýhody této realizace. Posledním bodem části teoretické je výběr vhodného databázového systému pro uchování extrahovaných dat a základní popis grafického uživatelského rozhraní. V praktické části je pomocí programovacího jazyka Java vytvořena demonstrační aplikace včetně uživatelského rozhraní.
Anotace v angličtině
The aim of this thesis is to create an application including the user interface for a demonstration of the web data extraction (web harvest or web scraping). The beginning of the theoretical part deals with explaining the basic terms, the principles of data extraction and the description of available tools, for a so-called harvest. Subsequently one of the tools is selected and the data collection principles are implemented on it. The thesis also includes advantages and disadvantages of this implementation. The last point of the theoretical part is the selection of a suitable database system for storing extracted data and basic description of the grafical user interface. In the practical part a demo application, including the user interface, is created by Java programming language.
Klíčová slova
extrakce dat, sběr dat, XPath, XML, web, databáze
Klíčová slova v angličtině
web harvest, web scraping, XPath, XML, web, database
Rozsah průvodní práce
76 s. (99 661 znaků)
Jazyk
CZ
Anotace
Cílem diplomové práce je vytvoření aplikace včetně uživatelského rozhraní pro demonstraci extrakce dat z webových serverů. Počátek teoretické části se zabývá vysvětlením základních pojmů, principem samotného sběru dat a popisem dostupných nástrojů pro tzv. harvest. Následně je vhodně vybrán jeden z nástrojů, na kterém jsou principy sběru dat realizovány. Práce také obsahuje výhody a nevýhody této realizace. Posledním bodem části teoretické je výběr vhodného databázového systému pro uchování extrahovaných dat a základní popis grafického uživatelského rozhraní. V praktické části je pomocí programovacího jazyka Java vytvořena demonstrační aplikace včetně uživatelského rozhraní.
Anotace v angličtině
The aim of this thesis is to create an application including the user interface for a demonstration of the web data extraction (web harvest or web scraping). The beginning of the theoretical part deals with explaining the basic terms, the principles of data extraction and the description of available tools, for a so-called harvest. Subsequently one of the tools is selected and the data collection principles are implemented on it. The thesis also includes advantages and disadvantages of this implementation. The last point of the theoretical part is the selection of a suitable database system for storing extracted data and basic description of the grafical user interface. In the practical part a demo application, including the user interface, is created by Java programming language.
Klíčová slova
extrakce dat, sběr dat, XPath, XML, web, databáze
Klíčová slova v angličtině
web harvest, web scraping, XPath, XML, web, database
Zásady pro vypracování
Vytvořte literární rešerši na téma extrakce dat z webových serverů.
Seznamte se s existujícími nástroji v dané oblasti.
Na základě vhodně zvoleného nástroje realizujte extrakci dat z několika vybraných webových serverů.
Zvolte vhodný databázový systém pro uchování extrahovaných dat.
Pomocí libovolného nástroje vytvořte uživatelské rozhraní.
Zhodnoťte řešení, přínos a možný budoucí vývoj.
Zásady pro vypracování
Vytvořte literární rešerši na téma extrakce dat z webových serverů.
Seznamte se s existujícími nástroji v dané oblasti.
Na základě vhodně zvoleného nástroje realizujte extrakci dat z několika vybraných webových serverů.
Zvolte vhodný databázový systém pro uchování extrahovaných dat.
Pomocí libovolného nástroje vytvořte uživatelské rozhraní.
Zhodnoťte řešení, přínos a možný budoucí vývoj.
Seznam doporučené literatury
ECKEL, Bruce. Thinking in Java. 4th ed. Upper Saddle River, NJ: Prentice Hall, 2006. ISBN 978-013-1872-486.
DEINUM, M., J. LONG, G. MAK a D. RUBIO. Spring Recipes: A Problem-Solution Approach. 3rd ed. New York: Apress, 2014. ISBN 978-1-4302-5908-4.
MITCHELL, Ryan. Instant Web Scraping with Java. Birmingham: Packt Publishing, 2013. ISBN 978-1-84969-688-3.
REDMOND, Eric a Jim R. WILSON. Seven Databases in Seven Weeks: A Guide to Modern Databases and the NoSQL Movement. Dallas, Texas: Pragmatic Bookshelf, 2012. Pragmatic programmers. ISBN 19-343-5692-1.
HAASE, Chet a Romain GUY. Filthy Rich Clients: Developing Animated and Graphical Effects for Desktop Java Applications. Upper Saddle River: Prentice Hall, 2008. ISBN 978-0-13-241393-0
TACY, A., R. HANSON, J. ESSINGTON a A. TÖKKE. GWT in Action. 2nd ed. Shelter Island, NY: Manning Publications, 2013. ISBN 978-1935182849.
Seznam doporučené literatury
ECKEL, Bruce. Thinking in Java. 4th ed. Upper Saddle River, NJ: Prentice Hall, 2006. ISBN 978-013-1872-486.
DEINUM, M., J. LONG, G. MAK a D. RUBIO. Spring Recipes: A Problem-Solution Approach. 3rd ed. New York: Apress, 2014. ISBN 978-1-4302-5908-4.
MITCHELL, Ryan. Instant Web Scraping with Java. Birmingham: Packt Publishing, 2013. ISBN 978-1-84969-688-3.
REDMOND, Eric a Jim R. WILSON. Seven Databases in Seven Weeks: A Guide to Modern Databases and the NoSQL Movement. Dallas, Texas: Pragmatic Bookshelf, 2012. Pragmatic programmers. ISBN 19-343-5692-1.
HAASE, Chet a Romain GUY. Filthy Rich Clients: Developing Animated and Graphical Effects for Desktop Java Applications. Upper Saddle River: Prentice Hall, 2008. ISBN 978-0-13-241393-0
TACY, A., R. HANSON, J. ESSINGTON a A. TÖKKE. GWT in Action. 2nd ed. Shelter Island, NY: Manning Publications, 2013. ISBN 978-1935182849.
Přílohy volně vložené
1 CD ROM
Přílohy vázané v práci
-
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Diplomant odprezentoval před komisí hlavní cíle a výsledky své diplomové práce. Součástí prezentace byla praktická ukázka uživatelské aplikace. Následně byl student seznámen s posudky vedoucího a oponenta diplomové práce. Diplomant postupně odpověděl na otázky oponenta práce.
Komise vznesla k obhajobě následující dotazy:
1) Dr. Dulík: Jaké knihovny ve své aplikaci využíváte? Lze v aplikaci ukládat data do databáze?
2) Dr. Dulík: Umí si knihovna Webharvest poradit s HTMLstránkami?
3) doc. Nahodil: Jaké máte plány na budoucí využití Vaší aplikace v praxi?
4) doc. Dulík: Porovnával jste i jiné nástroje či knihovny?
Student na položené dotazy reagoval pohotově a zodpověděl je v plném rozsahu.