PYTANIA:
Jaki jest związek między maszyną SVM a utratą zawiasów?
Mój kolega i ja próbujemy ogarnąć różnicę między regresją logistyczną a maszyną SVM. Najwyraźniej optymalizują różne funkcje celu. Czy maszyna SVM jest tak prosta, jak stwierdzenie, że jest klasyfikatorem dyskryminującym, który po prostu optymalizuje utratę zawiasów? A może jest to bardziej skomplikowane? W jaki sposób wektory pomocnicze wchodzą w grę? Co ze zmiennymi luzu? Dlaczego nie masz głębokiej SVM, tak jak nie możesz mieć głębokiej sieci neuronowej z funkcjami aktywacji sigmoidalnej?
ODPOWIEDZI:
Oba są modelami dyskryminującymi, tak. Funkcja utraty regresji logistycznej jest koncepcyjnie funkcją wszystkich punktów. Prawidłowo sklasyfikowane punkty bardzo niewiele dodają do funkcji straty, dodając więcej, jeśli znajdują się blisko granicy. Punkty w pobliżu granicy są zatem ważniejsze dla straty i dlatego decydują o tym, jak dobra jest granica. SVM wykorzystuje utratę zawiasów, która koncepcyjnie kładzie nacisk na punkty graniczne. Coś dalej niż najbliższe punkty nic nie przyczynia się do utraty z powodu „zawiasu” (maks.) Funkcji. Te najbliższe punkty to po prostu wektory pomocnicze. Dlatego faktycznie ogranicza się do wybrania granicy, która tworzy największy margines – odległość do najbliższego punktu. Teoria jest taka, że przypadek agraniczny jest wszystkim, co naprawdę ma znaczenie dla uogólnienia. Minusem jest to, że utrata zawiasów nie jest różnicowalna, ale to tylko oznacza, że potrzeba więcej matematyki, aby odkryć, jak zoptymalizować ją za pomocą mnożników Lagrange’a. Naprawdę nie radzi sobie z przypadkiem, gdy danych nie da się rozdzielić liniowo. Zmienne luzu to sztuczka, która pozwala na włączenie tej możliwości do problemu optymalizacji.