Data Engineering on Microsoft Azure (CZ)

Základní info

Popis kurzu

V tomto kurzu se student dozví o vzorcích a postupech datového inženýrství, které se týkají práce s dávkovými a real-time analytickými řešeními pomocí technologií datové platformy Azure.

Studenti pochopí základní výpočetní a úložné technologie, které se používají k vytvoření analytického řešení. Poté prozkoumají, jak navrhnout analytické obslužné vrstvy a zaměřit se na aspekty datového inženýrství pro práci se zdrojovými soubory. Naučí se, jak interaktivně zkoumat data uložená v souborech v datovém jezeře. Naučí se různé techniky přijímání, které lze použít k načtení dat pomocí schopnosti Apache Spark nalezené v Azure Synapse Analytics nebo Azure Databricks, či jak přijímat pomocí Azure Data Factory nebo Azure Synapse potrubí. Studenti se také naučí různé způsoby, jak mohou transformovat data pomocí stejných technologií, které se používají pro příjem dat. Budou sledovat a analyzovat výkon analytického systému tak, aby mohl optimalizovat výkon datových zátěží nebo dotazů, které jsou vydávány proti systémům. Pochopí důležitost implementace zabezpečení k zajištění ochrany dat v klidu nebo při přenosu. Naučí se, jak lze data v analytickém systému použít k vytvoření řídicích panelů nebo k vytváření prediktivních modelů v Azure Synapse Analytics.

Cíle kurzu

Po absolvování tohoto kurzu budete schopni:

  • prozkoumat možnosti výpočtu a úložiště pro úlohy datového inženýrství v Azure

  • navrhnout a implementovat obslužnou vrstvu

  • porozumět úvahám o datovém inženýrství

  • spouštět interaktivní dotazy pomocí SQL serverů bez serveru

  • prozkoumat, transformovat a načíst data do Data Warehouse pomocí Apache Spark

  • provádět průzkum a transformaci dat v Azure Databricks

  • přijímat a načítat data do datového skladu

  • transformovat data pomocí Azure Data Factory nebo Azure Synapse Pipelines

  • integrovat data z notebooků pomocí Azure Data Factory nebo Azure Synapse Pipelines

  • optimalizovat výkon dotazů s vyhrazenými fondy SQL v Azure Synapse

  • analyzovat a optimalizovat úložiště datových skladů

  • podporovat hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link

  • provádět komplexní zabezpečení pomocí Azure Synapse Analytics

  • provádět Stream Stream Processing v reálném čase pomocí Stream Analytics

  • vytvořit Stream Processing Solution s Event Hubs a Azure Databricks

  • vytvářet sestavy pomocí integrace Power BI s Azure Synpase Analytics

  • provádět integrované procesy strojového učení v Azure Synapse Analytics

Určeno pro

Primárním publikem tohoto kurzu jsou datoví profesionálové, datoví architekti a profesionálové v oblasti business intelligence, kteří se chtějí dozvědět o datovém inženýrství a budování analytických řešení pomocí technologií datových platforem, které existují v Microsoft Azure. Sekundární publikum jsou datoví analytici a vědci, kteří pracují s analytickými řešeními postavenými na Microsoft Azure.

Obsah kurzu

Modul 1: Možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství

Tento modul poskytuje přehled možností technologie Azure compute and storage, které jsou k dispozici datovým inženýrům vytvářejícím analytické úlohy. Tento modul ukazuje způsoby, jak strukturovat datové jezero a optimalizovat soubory pro průzkum, streamování a dávkové úlohy. Student se naučí, jak uspořádat datové jezero do úrovní upřesnění dat, jak transformují soubory pomocí dávkového a streamového zpracování. Naučí se, jak vytvořit indexy v jejich datových sadách, jako jsou soubory CSV, JSON a Parquet, a použít je pro potenciální zrychlení dotazů a úloh.



Lekce

  • Úvod do Azure Synapse Analytics

  • Azure Databricks

  • Úvod do úložiště Azure Data Lake

  • Architektura Delta Lake

  • Práce s datovými proudy pomocí Azure Stream Analytics


Modul 2: Návrh a implementace obslužné vrstvy

Tento modul ukazuje, jak navrhovat a implementovat datová úložiště v moderním datovém skladu za účelem optimalizace analytických úloh. Student se naučí, jak navrhnout vícerozměrné schéma pro ukládání údajů o faktech a dimenzích. Jak naplnit pomalu se měnící dimenze prostřednictvím přírůstkového načítání dat z Azure Data Factory.



Lekce

  • Návrh vícerozměrných schémat pro optimalizaci analytických úloh

  • Transformace bez kódu ve velkém rozsahu s Azure Data Factory

  • Naplňění pomalu se měnící dimenze v kanálech Azure Synapse Analytics


Modul 3: Úvahy o datovém inženýrství pro zdrojové soubory

Tento modul zkoumá aspekty datového inženýrství, které jsou běžné při načítání dat do moderního datového skladu analyticky ze souborů uložených v Azure Data Lake, a porozumění bezpečnostní úvaze spojené s ukládáním souborů uložených v datovém jezeře.



Lekce

  • Návrh moderního datového skladu pomocí Azure Synapse Analytics

  • Zabezpečení datového skladu v Azure Synapse Analytics


Modul 4: Spouštění interaktivních dotazů pomocí fondů SQL bez serveru Azure Synapse Analytics

V tomto modulu se studenti naučí, jak pracovat se soubory uloženými v datovém jezeře a externích zdrojích souborů, a to prostřednictvím příkazů T-SQL prováděných fondem SQL bez serveru v Azure Synapse Analytics. Studenti se budou dotazovat na soubory parket uložené v datovém jezeře a soubory CSV uložené v externím úložišti dat. Dále vytvoří skupiny zabezpečení Azure Active Directory a vynutí přístup k souborům v datovém jezeře prostřednictvím RBAC (Role-Based Access Control) a seznamů řízení přístupu (ACL).



Lekce

  • Možnosti fondů SQL bez serveru Azure Synapse

  • Dotazování na data v jezeře pomocí Azure Synapse SQL serverů bez serveru

  • Tvorba objektů metadat ve fondech SQL bez serveru Azure Synapse

  • Zabezpečení dat a správa uživatele ve fondech SQL bez serveru Azure Synapse


Modul 5: Průzkum, transformace a načítání dat do Data Warehouse pomocí Apache Spark

Tento modul učí, jak prozkoumat data uložená v datovém jezeře, transformovat data a načíst je do úložiště relačních dat. Student prozkoumá soubory Parquet a JSON a použije techniky k dotazování a transformaci souborů JSON s hierarchickými strukturami. Potom pomocí Apache Spark načte data do datového skladu a spojí Parquet data v datovém jezeře s daty ve vyhrazeném fondu SQL.



Lekce

  • Inženýrství velkých dat s Apache Spark ve službě Azure Synapse Analytics

  • Příjem dat pomocí poznámkových bloků Apache Spark v Azure Synapse Analytics

  • Transformace dat pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics

  • Integrace fondů SQL a Apache Spark ve službě Azure Synapse Analytics


Modul 6: Průzkum a transformace dat v Azure Databricks

Jak používat různé metody Apache Spark DataFrame k prozkoumání a transformaci dat v Azure Databricks. Student se naučí provádět standardní metody DataFrame k prozkoumání a transformaci dat. Naučí se také, jak provádět pokročilejší úkoly, jako je odstraňování duplicitních dat, manipulace s hodnotami data a času, přejmenování sloupců a agregace dat.



Lekce

  • Azure Databricks

  • Čtení a zápis dat v Azure Databricks

  • Práce s DataFrames v Azure Databricks

  • Práce s pokročilými metodami DataFrames v Azure Databricks


Modul 7: Přijímání a načítání dat do datového skladu

Tento modul učí studenty, jak přijímat data do datového skladu pomocí skriptů T-SQL a integračních kanálů Synapse Analytics. Jak načíst data do vyhrazených fondů SQL Synapse s PolyBase a COPY pomocí T-SQL. Jak používat správu úlohy spolu s aktivitou kopírování v kanálu Azure Synapse pro příjem dat v měřítku petabyte.



Lekce

  • Osvědčené postupy načítání dat ve službě Azure Synapse Analytics

  • Přijímání v měřítku petabajtů s Azure Data Factory


Modul 8: Transformace dat pomocí Azure Data Factory nebo Azure Synapse Pipelines

Jak vytvářet kanály pro integraci dat pro příjem z více zdrojů dat, transformovat data pomocí toků mapování dat a provádět pohyb dat do jednoho nebo více záchytů dat.



Lekce

  • Integrace dat s Azure Data Factory nebo Azure Synapse Pipelines

  • Transformace bez kódu v měřítku s Azure Data Factory nebo Azure Synapse Pipelines


Modul 9: Orchestrace pohybu a transformace dat v Azure Synapse Pipelines

V tomto modulu se naučíte, jak vytvořit propojené služby a orchestrovat pohyb a transformaci dat pomocí poznámkových bloků v Azure Synapse Pipelines.



Lekce

  • Organizace pohybu a transformace dat v Azure Data Factory


Modul 10: Optimalizace výkonu dotazů pomocí vyhrazených fondů SQL v Azure Synapse

V tomto modulu se studenti naučí strategie optimalizace ukládání a zpracování dat při použití vyhrazených fondů SQL v Azure Synapse Analytics. Jak používat funkce pro vývojáře, jako jsou okna a funkce HyperLogLog, používat osvědčené postupy načítání dat a optimalizovat a zlepšovat výkon dotazů.



Lekce

  • Optimalizace výkonu dotazů v datovém skladu ve službě Azure Synapse Analytics

  • Pochopení funkce vývojáře datového skladu Azure Synapse Analytics


Modul 11: Analýza a optimalizace úložiště datových skladů

V tomto modulu se studenti naučí, jak analyzovat a poté optimalizovat úložiště dat vyhrazených fondů SQL Azure Synapse. Naučí se techniky k pochopení využití tabulkového prostoru a podrobností úložiště sloupců. Jak porovnat požadavky na úložiště mezi stejnými tabulkami, které používají různé datové typy. Dopad zhmotněných pohledů při provádění namísto složitých dotazů a jak se vyhnout rozsáhlému protokolování optimalizací operací mazání.



Lekce

  • Analýza a optimalizace úložiště datového skladu ve službě Azure Synapse Analytics


Modul 12: Podpora hybridního transakčního analytického zpracování (HTAP) pomocí Azure Synapse Link

V tomto modulu se studenti naučí, jak Azure Synapse Link umožňuje bezproblémové připojení účtu Azure Cosmos DB k pracovnímu prostoru Synapse. Jak povolit a nakonfigurovat odkaz Synapse a poté, jak dotazovat analytické úložiště Azure Cosmos DB pomocí Apache Spark a SQL bez serveru.



Lekce

  • Návrh hybridního transakčního a analytického zpracování pomocí Azure Synapse Analytics

  • Konfigurace propojení Azure Synapse s Azure Cosmos DB

  • Dotaz na Azure Cosmos DB s fondy Apache Spark

  • Dotaz na Azure Cosmos DB s fondy SQL bez serveru


Modul 13: Zabezpečení typu end-to-end s Azure Synapse Analytics

V tomto modulu se studenti naučí, jak zabezpečit pracovní prostor Synapse Analytics a jeho podpůrnou infrastrukturu. Student bude sledovat administrátora služby SQL Active Directory, spravovat pravidla brány firewall IP, spravovat tajné klíče pomocí Azure Key Vault a přistupovat k těmto tajným klíčům prostřednictvím služby spojené s Key Vault a aktivit kanálu. Jak při použití vyhrazených fondů SQL implementovat zabezpečení na úrovni sloupců, zabezpečení na úrovni řádků a dynamické maskování dat.



Lekce

  • Zabezpečení datového skladu v Azure Synapse Analytics

  • Konfigurace a správa zabezpečení v Azure Key Vault

  • Implementace kontroly souladu s citlivými údaji


Modul 14: Zpracování streamů v reálném čase pomocí Stream Analytics

V tomto modulu se studenti naučí, jak zpracovávat streamovaná data pomocí Azure Stream Analytics. Student přijme telemetrická data vozidla do Event Hubs, poté tato data zpracuje v reálném čase pomocí různých funkcí ve službě Azure Stream Analytics. Výstup dat do Azure Synapse Analytics. Jak škálovat úlohu Stream Analytics pro zvýšení propustnosti.



Lekce

  • Povolení zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs

  • Práce s datovými proudy pomocí Azure Stream Analytics

  • Přijímání datových toků pomocí Azure Stream Analytics


Modul 15: Vytvoření řešení zpracování proudu pomocí Event Hubs a Azure Databricks

V tomto modulu se studenti naučí, jak přijímat a zpracovávat streamovaná data v měřítku pomocí Event Hubs a Spark Structured Streaming v Azure Databricks. Naučí se klíčové funkce a použití strukturovaného streamování. Student implementuje posuvná okna pro agregaci přes velké množství dat a použije vodoznak k odstranění zastaralých dat. Nakonec se připojí k Event Hubs, aby mohl číst a zapisovat streamy.



Lekce

  • Zpracování streamovaných dat pomocí strukturovaného streamování Azure Databricks


Modul 16: Vytváření sestav pomocí integrace Power BI s Azure Synpase Analytics

V tomto modulu se student naučí, jak integrovat Power BI s jejich pracovním prostorem Synapse k vytváření sestav v Power BI. Student vytvoří nový zdroj dat a sestavu Power BI v Synapse Studio. Poté se student naučí, jak zlepšit výkon dotazu pomocí zhmotněných pohledů a mezipaměti sady výsledků. Nakonec prozkoumá datové jezero s fondy SQL bez serveru a vytvoří vizualizace proti těmto datům v Power BI.



Lekce

  • Tvorba sestavy pomocí Power BI pomocí jeho integrace s Azure Synapse Analytics


Modul 17: Integrované procesy strojového učení ve službě Azure Synapse Analytics

Tento modul zkoumá integrované komplexní prostředí Azure Machine Learning a Azure Cognitive Services v Azure Synapse Analytics. Student se naučí, jak připojit pracovní prostor Azure Synapse Analytics k pracovnímu prostoru Azure Machine Learning pomocí propojené služby a poté aktivovat automatizovaný experiment ML, který používá data z tabulky Spark. Jak používat trénované modely z Azure Machine Learning nebo Azure Cognitive Services k obohacení dat v tabulce fondů SQL a následnému poskytování výsledků předpovědí pomocí Power BI.



Lekce

  • Integrovaný proces strojového učení ve službě Azure Synapse Analytics

Předpoklady

Základní znalosti cloudových výpočtů, základních datových konceptů a zkušenost s datovými řešeními.



Doporučené kurzy:

  • AZ-900 - Azure Fundamentals

  • DP-900 - Microsoft Azure Data Fundamentals.

Studijní materiály

Materiály jsou v elektronické podobě.

Data Engineering on Microsoft Azure (CZ)

Vybraný termín:

6.9.2021 –  9.9.2021  Online

Cena
36500 Kč + 21 % DPH

Kontaktovat dodavatele


Kontrola proti spamu. Kolik je pět a jedna ? Součet zapište číslicemi.