Základní info
Rozhodovací stromy jsou jednou z nejpoužívanějších technik data miningu. Kurz je určen těm, kteří se zajímají o klasifikaci dat (například credit scoring, kdy se na základě příznaků snažíme rozhodnout o zařazení vzorů do skupin) nebo se věnují regresním úlohám včetně predikcí časového vývoje. Kurz seznámí účastníky nejen s klasickými metodami, ale i s pokročilejšími stromovými strukturami jako jsou Boosting Trees nebo Random Forests. Součástí kurzu je i interaktivní tvorba vlastních stromů a jejich modifikace.
Program kurzu
- Úvod
- Základní informace o softwaru STATISTICA
- Výukové zdroje pro software a možnosti nápovědy
- Příprava dat STATISTICA
- Načtení, transformace, vzorkování, filtrace odlehlých hodnot, oprava chybějících údajů, atd.
- Výběr důležitých prediktorů pro požadovanou úlohu
- Sdružování rozsáhlých skupin hodnot příznaků (binning)
- Klasifikační a regresní stromy
- Vytváření, princip, možnosti, využití
- Metody
- Klasifikační a regresní stromy CART
- CHAID
- Generované stromy (Boosted Trees)
- Náhodné lesy (Random Forests)
- Vytváření klasifikačních a regresních stromů v interaktivním režimu (generování stromu, prořezávání stromu, výběr rozhodovacích proměnných, výběr mezí)
- Vyhodnocení kvality vytvořeného modelu
- Korelační analýza
- ROC křivka
- Grafy zisku a navýšení (Gains a Lift chart)
- Nasazení modelu v praxi
- Hierarchické shlukování a jeho souvislost s klasifikačními a regresními stromy
- Základy práce v prostředí modulu STATISTICA Data Miner
- Práce s recepty (wizardem)
- Práce v rámci pracovní plochy (workspaces)
- Využití přednastavených úloh
- Implementace vlastních uzlů
Předpokládané znalosti účastníků
- Běžná obsluha počítače v prostředí Windows.