Velká data jsou data, které není možné analyzovat konvenčním přístupem na jednom zařízení. Jednou z možností je využít distribuovaného zpracování pro rozložení zátěže mezi více zařízení a data zpracovat s využitím strojového učení. Tímto přístupem je možné z velkého množství nestrukturovaných dat získat cenné znalosti. Tyto přístupy jsou popsány v teoretické částí práce. Mimo jiné se ukázalo, že distribuované zpracování má kromě výhod také určité nevýhody. Tyto nevýhody popisuje CAP teorém a je na ně potřeba myslet při návrhu aplikací. V praktické části je navržena aplikace, která na základě analýzy dat doporučuje uživateli produkty. Ukázalo se také, že programovací jazyk Python je díky svým knihovnám kvalitní nástroj, snadno použitelný pro datové analýzy.
Anotace v angličtině
Big data are data, which can´t be analyzed by convention methods on a single device. One of possible solutions is to use distributed processing to divide workload across multiple devices and to process data using machine learning.
With this approach it is possible to gain valuable knowledge from a large number of unstructured data. These approaches are described in the theoretical part of the thesis. Among other things, it was shown that the distributed processing has advantages as well as certain disadvantages. These disadvantages are described by CAP theorem, and it is needed to think about them while designing applications. In the practical part of this thesis, the application is designed for product recommendation based on the data analysis. It was also shown that the programming language Python is a quality tool that showed a good performance and is easy to use for data analysis.
Klíčová slova
Velká data, distribuované zpracování, strojové učení, analýza dat, systém pro doporučová-ní
Klíčová slova v angličtině
Big data, distributed computing, machine learning, data analysis, recommendation system
Rozsah průvodní práce
70
Jazyk
CZ
Anotace
Velká data jsou data, které není možné analyzovat konvenčním přístupem na jednom zařízení. Jednou z možností je využít distribuovaného zpracování pro rozložení zátěže mezi více zařízení a data zpracovat s využitím strojového učení. Tímto přístupem je možné z velkého množství nestrukturovaných dat získat cenné znalosti. Tyto přístupy jsou popsány v teoretické částí práce. Mimo jiné se ukázalo, že distribuované zpracování má kromě výhod také určité nevýhody. Tyto nevýhody popisuje CAP teorém a je na ně potřeba myslet při návrhu aplikací. V praktické části je navržena aplikace, která na základě analýzy dat doporučuje uživateli produkty. Ukázalo se také, že programovací jazyk Python je díky svým knihovnám kvalitní nástroj, snadno použitelný pro datové analýzy.
Anotace v angličtině
Big data are data, which can´t be analyzed by convention methods on a single device. One of possible solutions is to use distributed processing to divide workload across multiple devices and to process data using machine learning.
With this approach it is possible to gain valuable knowledge from a large number of unstructured data. These approaches are described in the theoretical part of the thesis. Among other things, it was shown that the distributed processing has advantages as well as certain disadvantages. These disadvantages are described by CAP theorem, and it is needed to think about them while designing applications. In the practical part of this thesis, the application is designed for product recommendation based on the data analysis. It was also shown that the programming language Python is a quality tool that showed a good performance and is easy to use for data analysis.
Klíčová slova
Velká data, distribuované zpracování, strojové učení, analýza dat, systém pro doporučová-ní
Klíčová slova v angličtině
Big data, distributed computing, machine learning, data analysis, recommendation system
Zásady pro vypracování
Definujte cíle práce a použité metody zpracování práce.
Teoretická část
V systematickém přehledu prezentujte poznatky z oblasti zpracování velkých dat a strojového učení.
Praktická část
Navrhněte architekturu aplikace pro zpracování velkých dat s využitím algoritmů strojového učení.
Navrhněte serverovou infrastrukturu pro provozování aplikace.
Zpracujte podnikatelský plán pro vývoj aplikace.
Závěr
Zásady pro vypracování
Definujte cíle práce a použité metody zpracování práce.
Teoretická část
V systematickém přehledu prezentujte poznatky z oblasti zpracování velkých dat a strojového učení.
Praktická část
Navrhněte architekturu aplikace pro zpracování velkých dat s využitím algoritmů strojového učení.
Navrhněte serverovou infrastrukturu pro provozování aplikace.
Zpracujte podnikatelský plán pro vývoj aplikace.
Závěr
Seznam doporučené literatury
Data science and big data analytics: discovering, analyzing, visualizing and presenting data. Indianapolis: Wiley, 2015, 410 stran. ISBN 978-1-118-87613-8.
HOLUBOVÁ, Irena, Jiří KOSEK, Karel MINAŘÍK a David NOVÁK. Big Data a NoSQL databáze. Praha: Grada, 2015, 281 stran. Profesional. ISBN 978-80-247-5466-6.
JANÍČEK, Přemysl. Systémové pojetí vybraných oborů pro techniky: hledání souvislostí : učební texty. Brno: Akademické nakladatelství CERM, 2007, 2 sv. ISBN 978-80-7204-554-9.
Mike, Barlow. Real-Time Big Data Analytics: Emerging Architecture. Sebastopol: O'Reilly Media, 2013, 32 stran. ISBN 978-1-449-36421-2.
SUMMERFIELD, Mark. Python 3: výukový kurz. Brno: Computer Press, 2010, 584 stran. ISBN 978-80-251-2737-7.
Seznam doporučené literatury
Data science and big data analytics: discovering, analyzing, visualizing and presenting data. Indianapolis: Wiley, 2015, 410 stran. ISBN 978-1-118-87613-8.
HOLUBOVÁ, Irena, Jiří KOSEK, Karel MINAŘÍK a David NOVÁK. Big Data a NoSQL databáze. Praha: Grada, 2015, 281 stran. Profesional. ISBN 978-80-247-5466-6.
JANÍČEK, Přemysl. Systémové pojetí vybraných oborů pro techniky: hledání souvislostí : učební texty. Brno: Akademické nakladatelství CERM, 2007, 2 sv. ISBN 978-80-7204-554-9.
Mike, Barlow. Real-Time Big Data Analytics: Emerging Architecture. Sebastopol: O'Reilly Media, 2013, 32 stran. ISBN 978-1-449-36421-2.
SUMMERFIELD, Mark. Python 3: výukový kurz. Brno: Computer Press, 2010, 584 stran. ISBN 978-80-251-2737-7.
Přílohy volně vložené
1 CD
Přílohy vázané v práci
ilustrace, grafy, schémata, tabulky
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Vedoucí práce: Ing. et Ing. Martin Kovářík, Ph.D. , 26 bodů
Která metrika pro hodnocení vzdáleností v podobnostní matici je nejvhodnější v případě řídkých matic a proč? Zodpovězeno zcela
Který algoritmus učení bez učitele by dále připadal v úvahu a proč? Uveďte pár příkladů včetně jejich výhod a nevýhod. Zodpovězeno zcela
Uvažoval jste aplikaci deep learningu v případě doporučovacího systému? V čem by mohl mít výhodu oproti stávajícím algoritmům strojového učení bez učitele, popř. nevýhodu? Zodpovězeno zcela
Oponent práce: Ing. Michal Pivnička, Ph.D., 15 bodů
Dokážete blíže specifikovat jednotlivé etapy projektu, které jsou nutné k jeho realizaci? Zodpovězeno zcela
Jaká jsou případná rizika podnikatelského záměru a jak se s nimi vyrovnáte? Zodpovězeno zcela
doc. Ing. Michal Šimon, Ph.D.
Žádal jste o dotace na podporu svého podnikání spojeného s řešenou problematikou v diplomové práci? Zodpovězeno zcela