Metody čištění dat

Kurz na míru

Základní info

Kurz určený všem, kteří se chtějí seznámit s nejrůznějšími metodami čištění dat. Při přihlášení do tohoto kurzu by uživatelé již měli mít zkušenosti se SAS System a datastepem (PRG1 + PRG2).


Přínos pro účastníka

Ve školení se naučíte, jak odhalovat a korigovat chyby ve vstupních datech. Mezi techniky patří zejména použití datastepu, ale i procedur FREQ, MEANS a UNIVARIATE, které umožňují identifikovat "problematická" pozorování numerických i kategoriálních proměnných dle předem stanovených kritérií. Další část kurzu je věnována vyhledávání shodných identifikačních znaků v různých souborech (fuzzy join) a vyhledávání duplicitních záznamů.


Obsah kurzu


Úvod

  • co je to čištění dat
  • seznámení se s ukázkovými datovými soubory

Kontrola hodnot textových proměnných

  • výpis hodnot pomocí procedury FREQ
  • hledání nepřípustných hodnot pomocí datastepu
  • zobrazení nepřípustných hodnot
  • použití předdefinovaných formátů SAS
  • použití vstupních šablon (informáty)

Kontrola hodnot numerických proměnných

  • identifikace odlehlých pozorování v procedurách MEANS, TABULATE a UNIVARIATE
  • zobrazení nepřípustných hodnot pomocí procedury PRINT s klauzulí WHERE
  • hledání nepřípustných hodnot pomocí datastepu
  • kontrola přípustných hodnot na základě stanoveného intervalu
  • použití předdefinovaných formátů SAS
  • použití vstupních šablon (informáty)
  • vyhledávání horních a dolních percentilů procedurou UNIVARIATE
  • vyhledávání horních a dolních percentilů procedurou RANK
  • vyhledávání extrémních pozorování procedurou RANK
  • jiné způsoby nalezení extrémních hodnot
  • kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
  • kontrola přípustného intervalu stanoveného na základě mezikvartilového rozpětí
  • simultání kontrola několika proměnných

Kontrola chybějících hodnot

  • prohlížení logu
  • hledání chybějících hodnot procedurami MEANS a FREQ
  • hledání chybějících hodnot pomocí datastepu
  • použití procedury TABULATE ke zjištění chybějících hodnot numerických proměnných
  • použití procedury TABULATE ke zjištění chybějících hodnot textových proměnných
  • vytvoření obecně použitelného algoritmu za účelem vyhledávání chybějících hodnot
  • vyhledávání konkrétní hodnoty

Práce s datumy

  • kontrola pomocí stanoveného intervalu
  • nalezení neplatných datumů
  • nestandardní datumové formáty
  • ošetření chybějícího dne v měsíci
  • zrušení automatické kontroly neplatných datumů

Vyhledávání duplicit a vícenásobných pozorování

  • vynechání duplicit za pomoci procedury SORT
  • nalezení duplicit v datastepu
  • vyhledávání duplicitních záznamů pomocí maker a SQL
  • hledání duplicit procedurou FREQ
  • identifikace subjektů s n pozorováními

Práce s více soubory

  • vyhledávání shodných identifikátorů ve dvou a více souborech
  • jednoduchá makra pro vyhledávání shodných hodnot v klíčových proměnných
  • složitější makra pro vyhledávání ve více souborech
  • pravidla vyhledávání ve více souborech
  • kontrola správného řazení datumů

Porovnávání více souborů (procedura COMPARE)

  • jednoduché porovnání dvou souborů bez společného klíče
  • procedura COMPARE při existenci společné proměnné
  • použití COMPARE v souborech s rozdílným počtem pozorování
  • porovnání dvou souborů při existenci různých proměnných

Vybraná SQL řešení pro čištění dat

  • přehled možností procedury SQL
  • kontrola neplatných hodnot
  • identifikace odlehlých pozorování
  • kontrola přípustného intervalu stanoveného na základě směrodatné odchylky
  • vyhledávání chybějících pozorování
  • kontrola datumů
  • hledání duplicit
  • verifikace vícenásobných pozorování u stejného subjektu
  • vyhledávání shodných identifikátorů ve dvou souborech
  • složitější vyhledávání ve více souborech

Vybraná datastep řešení pro čištění dat

  • přiřazení k číselníkovým hodnotám
  • seskupování podobných textových položek
  • automatické vytvoření číselníku

Data specifická pro ČR (viz. CZDATA)

  • PSČ
  • IČO
  • telefony
  • čísla účtů
  • názvy
  • adresy

Metody čištění dat

Kontaktovat dodavatele


Kontrola proti spamu. Kolik je pět a sedm ? Součet zapište číslicemi.