PYTANIE: Radzenie sobie z zestawem treningowym o wątpliwej jakości
Większość materiałów, które przeczytałem w przeszłości, zwykle zakłada, że zestaw treningowy jest bezbłędny. Wydaje się jednak, że tak nie jest w przypadku tego, co otrzymałem. Dane, które mają zostać przesłane do zestawu treningowego, są często wątpliwe (nawet nie wiem, jak zacząć oddzielać dobre od złych). Spędziłem znacznie więcej czasu próbując wstępnie przetworzyć pliki w celu zwiększenia ważności danych, niż budować prototyp. Zrzuciłem tylko część danych, które mają być lepsze. Wciąż są dane z innych źródeł, które uzupełniają brakującą część pierwszego zestawu danych treningowych. Biorąc pod uwagę ilość danych, praktycznie nie mogę poświęcić im zbyt wiele czasu. Pytanie brzmi: w jaki sposób ludzie radzą sobie z naprawdę okropnymi, niespójnymi danymi w prawdziwym życiu (zakładając, że pracuję z adresami, w których ludzie często piszą zły kod pocztowy z powodu złego planowania miasta lub braku jasnych instrukcji, źle wpisują nazwę dzielnicy, plus dane zostały „automatycznie skorygowane” przez program Excel, tak że „1-2” staje się „1 lutego” itp.)? W szczególności, w jaki sposób mogę zapewnić jakość klasyfikatora pociągu, biorąc pod uwagę, że zestaw szkoleniowy (i zestaw krzyżowej weryfikacji) ma wątpliwą jakość?
ODPOWIEDŹ: Witamy w prawdziwym świecie nauki o danych. Tutaj zestawy danych nie są tak czyste, jak myślałeś podczas tych kursów / samouczków online. Są super dopracowane i dopracowane. Ale dane ze świata rzeczywistego nie są takie. Etap czyszczenia nazywany jest etapem wstępnego przetwarzania danych. Tak więc niektóre fajne techniki czyszczenia danych to:
- Eliminacja kolumn / predyktorów zerowej wariancji: kolumny te nie są ważne i powodują awarię modelu i dopasowania. Wyeliminowanie ich byłoby więc całkowicie sensowne.
- Korelowane predyktory: Zmniejszenie poziomu korelacji między predyktorami byłoby bardzo dobrym krokiem w procesie wstępnego przetwarzania.
- Skalowanie: Musisz wiedzieć, dlaczego skalowanie jest ważne podczas procesu wstępnego.
- Transformacje predyktorów
ODPOWIEDŹ: Możesz użyć technik częściowo nadzorowanego uczenia, w którym masz mały czysty zestaw treningowy i niektóre brudne dane. Rozbudowujesz swoją bazę danych, oceniając, jak dobre są inne dane i włączasz „najlepsze” punkty danych do swojego zestawu treningowego