Tato diplomová práce se zabývá datovými sklady pro uložení statistických dat reklamního systému Sklik.cz. Popsány jsou technologie MySQL, Hadoop, Apache Impala, Apache Hive, Druid a další. Z nich byla jako nejvhodnější řešení vybrána Apache Impala a je proto rozebrána podrobněji včetně praktických postupů pro migraci dat a její provoz.
Anotace v angličtině
This thesis describes data warehouse technologies and analyses the suitable solutions for the new generation of data warehouse for the advertising system Sklik.cz. Discussed technologies are MySQL, Hadoop, Apache Impala, Apache Hive, Druid and others. Apache Impala was chosen as the most suitable for Sklik.cz and is described in-depth. Project part of this thesis focuses on data migration, compatibility with old MySQL data warehouse and practical usage of Apache Impala.
Tato diplomová práce se zabývá datovými sklady pro uložení statistických dat reklamního systému Sklik.cz. Popsány jsou technologie MySQL, Hadoop, Apache Impala, Apache Hive, Druid a další. Z nich byla jako nejvhodnější řešení vybrána Apache Impala a je proto rozebrána podrobněji včetně praktických postupů pro migraci dat a její provoz.
Anotace v angličtině
This thesis describes data warehouse technologies and analyses the suitable solutions for the new generation of data warehouse for the advertising system Sklik.cz. Discussed technologies are MySQL, Hadoop, Apache Impala, Apache Hive, Druid and others. Apache Impala was chosen as the most suitable for Sklik.cz and is described in-depth. Project part of this thesis focuses on data migration, compatibility with old MySQL data warehouse and practical usage of Apache Impala.
Proveďte literární rešerši tématu datových skladů.
Analyzujte současný stav datového skladu systému Sklik.cz a definujte jeho silné a slabé stránky.
Navrhněte způsob řešení jeho aktualizace a zdůvodněte ji z pohledu zvolené technologie, její funkčnosti i očekávaného přínosu.
Realizujte zvolené řešení na vhodném modelu prototypu a tento důkladně otestujte.
Proveďte migraci systému a zhodnoťte jeho přínosy pro zadavatele.
Zásady pro vypracování
Proveďte literární rešerši tématu datových skladů.
Analyzujte současný stav datového skladu systému Sklik.cz a definujte jeho silné a slabé stránky.
Navrhněte způsob řešení jeho aktualizace a zdůvodněte ji z pohledu zvolené technologie, její funkčnosti i očekávaného přínosu.
Realizujte zvolené řešení na vhodném modelu prototypu a tento důkladně otestujte.
Proveďte migraci systému a zhodnoťte jeho přínosy pro zadavatele.
Seznam doporučené literatury
GEORGE, Lars. HBase: The Definitive Guide. 1. vyd. O\symbol{96}Reilly Media, 2011. 556 s. ISBN 978-1-4493-9610-7
HEWITT, Eben. Cassandra: The Definitive Guide. 1. vyd. O\symbol{96}Reilly Media, 2010. 332 s. ISBN 978-1-4493-9041-9
PACHEV, Sasha. Understanding MySQL Internals. 1. vyd. O\symbol{96}Reilly Media, 2007. 258 s. ISBN 978-0-596-00957-1
RUSSELL, John. Getting Started with Impala. 1. vyd. O\symbol{96}Reilly Media, 2014. 110 s. ISBN 978-1-4919-0577-7
SCHWARTZ, Baron, Peter ZAITSEV a Vadim TKACHENKO. High Performance MySQL. 3. vyd. O\symbol{96}Reilly Media, 2012. 826 s. ISBN 978-1-4493-1428-6
STEPHENS, Rod. Beginning Database Design Solutions. 1. vyd. Wrox, 2009. 552 s. ISBN 978-1-4571-0413-8
Seznam doporučené literatury
GEORGE, Lars. HBase: The Definitive Guide. 1. vyd. O\symbol{96}Reilly Media, 2011. 556 s. ISBN 978-1-4493-9610-7
HEWITT, Eben. Cassandra: The Definitive Guide. 1. vyd. O\symbol{96}Reilly Media, 2010. 332 s. ISBN 978-1-4493-9041-9
PACHEV, Sasha. Understanding MySQL Internals. 1. vyd. O\symbol{96}Reilly Media, 2007. 258 s. ISBN 978-0-596-00957-1
RUSSELL, John. Getting Started with Impala. 1. vyd. O\symbol{96}Reilly Media, 2014. 110 s. ISBN 978-1-4919-0577-7
SCHWARTZ, Baron, Peter ZAITSEV a Vadim TKACHENKO. High Performance MySQL. 3. vyd. O\symbol{96}Reilly Media, 2012. 826 s. ISBN 978-1-4493-1428-6
STEPHENS, Rod. Beginning Database Design Solutions. 1. vyd. Wrox, 2009. 552 s. ISBN 978-1-4571-0413-8
Přílohy volně vložené
-
Přílohy vázané v práci
-
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Student seznámil komisi s výsledky své diplomové práce. Poté byla seznámena komise s posudky vedoucího a oponenta a následně byla vedena diskuse o diplomové práci, během které byly položeny následující dotazy:
Diplomovou práci hodnotím zejména z hlediska okamžitého využití v reálném systému Seznam.cz. Celý databázový ekosystém (data lake) a ETL proces (Extract, Transform, Load) se opírá o technologie Hadoopu a proto nové řešení přibližuje datový sklad těmto technologiím. (prof. Schauer)
Používání wikipedia.org se nedá považovat za původní zdroj a v diplomové práci je vhodnější se tomuto zdroji vyhnout. Kolik času Vám zabralo nový datový sklad připravit a s kolika kolegy jste na tom spolupracoval? Jste schopný odhadnout, kolik firma zavedením Vámi vytvořeného systému ušetří zdrojů za jeden týden? (dr. Turčínek)
Porovnával jste databáze. U 3. databáze, Presto, jste řekl, že se výrazně snížila rychlost, Proč? Analýzy byly prováděny na základě jakých metrik? (prof. Jašek)
Student pohotově reagoval a všechny dotazy zodpověděl správně.