Metody čištění dat

Kontakt na dodavatele získáte po registraci

Tento kurz je pořádán dodavatelem, který nevyužívá placenou prezentaci na portálu EduCity.
Kontaktní údaje na dodavatele získáte po registraci. Nebo použijte poptávkový formulář.
  • Kurz na míru

  • ID akce:
    58660

Popis kurzu na míru Metody čištění dat

Kurz určený všem, kteří se chtějí seznámit s nejrůznějšími metodami čištění dat. Při přihlášení do tohoto kurzu by uživatelé již měli mít zkušenosti se SAS System a datastepem (PRG1 + PRG2).


Přínos pro účastníka

Ve školení se naučíte, jak odhalovat a korigovat chyby ve vstupních datech. Mezi techniky patří zejména použití datastepu, ale i procedur FREQ, MEANS a UNIVARIATE, které umožňují identifikovat "problematická" pozorování numerických i kategoriálních proměnných dle předem stanovených kritérií. Další část kurzu je věnována vyhledávání shodných identifikačních znaků v různých souborech (fuzzy join) a vyhledávání duplicitních záznamů.


Obsah kurzu


Úvod

  • co je to čištění dat
  • seznámení se s ukázkovými datovými soubory

Kontrola hodnot textových proměnných

  • výpis hodnot pomocí procedury FREQ
  • hledání nepřípustných hodnot pomocí datastepu
  • zobrazení nepřípustných hodnot
  • použití předdefinovaných formátů SAS
  • použití vstupních šablon (informáty)

Kontrola hodnot numerických proměnných

  • identifikace odlehlých pozorování v procedurách MEANS, TABULATE a UNIVARIATE
  • zobrazení nepřípustných hodnot pomocí procedury PRINT s klauzulí WHERE
  • hledání nepřípustných hodnot pomocí datastepu
  • kontrola přípustných hodnot na základě stanoveného intervalu
  • použití předdefinovaných formátů SAS
  • použití vstupních šablon (informáty)
  • vyhledávání horních a dolních percentilů procedurou UNIVARIATE
  • vyhledávání horních a dolních percentilů procedurou RANK
  • vyhledávání extrémních pozorování procedurou RANK
  • jiné způsoby nalezení extrémních hodnot
  • kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
  • kontrola přípustného intervalu stanoveného na základě mezikvartilového rozpětí
  • simultání kontrola několika proměnných

Kontrola chybějících hodnot

  • prohlížení logu
  • hledání chybějících hodnot procedurami MEANS a FREQ
  • hledání chybějících hodnot pomocí datastepu
  • použití procedury TABULATE ke zjištění chybějících hodnot numerických proměnných
  • použití procedury TABULATE ke zjištění chybějících hodnot textových proměnných
  • vytvoření obecně použitelného algoritmu za účelem vyhledávání chybějících hodnot
  • vyhledávání konkrétní hodnoty

Práce s datumy

  • kontrola pomocí stanoveného intervalu
  • nalezení neplatných datumů
  • nestandardní datumové formáty
  • ošetření chybějícího dne v měsíci
  • zrušení automatické kontroly neplatných datumů

Vyhledávání duplicit a vícenásobných pozorování

  • vynechání duplicit za pomoci procedury SORT
  • nalezení duplicit v datastepu
  • vyhledávání duplicitních záznamů pomocí maker a SQL
  • hledání duplicit procedurou FREQ
  • identifikace subjektů s n pozorováními

Práce s více soubory

  • vyhledávání shodných identifikátorů ve dvou a více souborech
  • jednoduchá makra pro vyhledávání shodných hodnot v klíčových proměnných
  • složitější makra pro vyhledávání ve více souborech
  • pravidla vyhledávání ve více souborech
  • kontrola správného řazení datumů

Porovnávání více souborů (procedura COMPARE)

  • jednoduché porovnání dvou souborů bez společného klíče
  • procedura COMPARE při existenci společné proměnné
  • použití COMPARE v souborech s rozdílným počtem pozorování
  • porovnání dvou souborů při existenci různých proměnných

Vybraná SQL řešení pro čištění dat

  • přehled možností procedury SQL
  • kontrola neplatných hodnot
  • identifikace odlehlých pozorování
  • kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
  • vyhledávání chybějících pozorování
  • kontrola datumů
  • hledání duplicit
  • verifikace vícenásobných pozorování u stejného subjektu
  • vyhledávání shodných identifikátorů ve dvou souborech
  • složitější vyhledávání ve více souborech

Vybraná datastep řešení pro čištění dat

  • přiřazení k číselníkovým hodnotám
  • seskupování podobných textových položek
  • automatické vytvoření číselníku

Data specifická pro ČR (viz. CZDATA)

  • PSČ
  • IČO
  • telefony
  • čísla účtů
  • názvy
  • adresy