PYTANIE:
Miara podobieństwa oparta na wielu klasach z hierarchicznej taksonomii? Czy ktoś mógłby polecić dobrą miarę podobieństwa dla obiektów, które mają wiele klas, gdzie każda klasa jest częścią hierarchii? Załóżmy na przykład, że klasy wyglądają następująco:
[Pomiń blok kodu]
1 produkt
1.1 Jajka
1.1.1 Jajka kaczki
1.1.2 Jaja kurze
1.2 Mleko
1.2.1 Mleko krowie
1.2.2 Mleko kozie
2 Wypieki
2.1 Ciasta
2.1.1 Sernik
2.1.2 Czekolada
Obiekt może być oznaczony przedmiotami z powyższego na dowolnym poziomie, np .:
Omlet: jajka, mleko (1.1, 1.2)
Omlet z jajkiem kaczym: jaja kaczki, mleko (1.1.1, 1.2)
Sernik z koziej czekolady mlecznej: mleko kozie, sernik, czekolada (1.2.2, 2.1.1, 2.1.2)
Wołowina: produkcja (1)
Gdyby klasy nie były częścią hierarchii, prawdopodobnie spojrzałbym na podobieństwo cosinus (lub równoważne) między klasami przypisanymi do obiektu, ale chciałbym wykorzystać fakt, że różne klasy z tymi samymi rodzicami również mają pewną wartość podobieństwa (np. w powyższym przykładzie wołowina ma pewne małe podobieństwo do omletu, ponieważ oba mają przedmioty z klasy „1 produkt”). Jeśli to pomoże, hierarchia ma ~ 200 000 klas, z maksymalną głębokością 5.
ODPOWIEDŹ :
Chociaż nie mam wystarczającej wiedzy specjalistycznej, aby doradzić Ci w wyborze najlepszej miary podobieństwa, widziałem wiele z nich w różnych artykułach. Mam nadzieję, że poniższy zbiór prac badawczych będzie przydatny w określeniu optymalnej miary dla twoich badań. Należy pamiętać, że celowo załączyłem papiery, używając zarówno częstych, jak i Bayesowskie podejście do hierarchicznej klasyfikacji, w tym informacji o klasach, w celu zapewnienia szerszego zakresu.
PYTANIE : Zastosowania i różnice dla podobieństwa Jaccard i cosinusoe
Podobieństwo Jaccard i podobieństwo cosinusowe są dwoma bardzo częstymi pomiarami przy porównywaniu podobieństw między przedmiotami. Nie jestem jednak do końca jasne, w której sytuacji najlepiej wybrać inną.
Czy ktoś może pomóc w wyjaśnieniu różnic między tymi dwoma pomiarami (różnica w koncepcji lub zasadzie, a nie definicji lub obliczeniach) i ich preferowanych zastosowaniach?
ODPOWIEDŹ :
Podobieństwo Jaccard Podobieństwo jest podane przez jacard.PNG, gdzie
p = liczba dodatnich atrybutów dla obu obiektów
q = liczba atrybutów 1 dla i i 0 dla j
r = liczba atrybutów 0 dla i i 1 dla j
Natomiast podobieństwo kosinusowe = kosinus.PNG
gdzie A i B są wektorami obiektowymi.
Mówiąc prosto, w podobieństwie do kosinusa, liczba wspólnych atrybutów jest dzielona przez całkowitą liczbę możliwych atrybutów. Natomiast w podobieństwie Jaccard liczba wspólnych atrybutów jest dzielona przez liczbę atrybutów, które istnieją w co najmniej jednym z dwóch obiektów. I istnieje wiele innych miar podobieństwa, z których każda ma swoje własne czynniki decentralne. Podejmując decyzję, którego użyć, spróbuj pomyśleć o kilku reprezentatywnych przypadkach i ustal, który indeks dałby najbardziej użyteczne wyniki dla osiągnięcia twojego celu. Na przykład, jeśli masz dwa obiekty, każdy z 10 atrybutami, spośród możliwych 100 atrybutów. Ponadto mają one wszystkie 10 wspólnych cech. W takim przypadku indeks Jaccard będzie wynosił 1, a indeks cosinus wyniesie 0,001. Rozważmy teraz inny scenariusz, w którym obiekt A ma 10 atrybutów, a obiekt B ma 50 atrybutów, ale B ma wszystkie 10 atrybutów, które ma A.
Tutaj wskaźnik Jaccard będzie wynosił 0,2, a wskaźnik cosinus nadal będzie wynosił 0,001. Kluczowe pytanie brzmi zatem, czy ta dodatkowa informacja znalazła odzwierciedlenie w tym przypadku w indeksie Jaccard, czy jest bolesna, czy też nie ma znaczenia. Twój wybór będzie zależeć od tego, które jest najlepsze dla Ciebie
Indeks Cosinus może być użyty do zidentyfikowania plagiatu, ale nie będzie dobrym indeksem do identyfikacji stron lustrzanych w Internecie. Podczas gdy indeks Jaccard będzie dobrym indeksem do identyfikacji witryn lustrzanych, ale nie będzie tak świetny w łapaniu plagiatów makaronów (w większym dokumencie). Oczywiście są to zabawkowe przykłady ilustrujące tę kwestię. Stosując te wskaźniki, musisz dokładnie przemyśleć swój problem i wymyślić, jak zdefiniować podobieństwo.
ODPOWIEDŹ : Podobieństwo Jaccard jest używane w dwóch typach przypadków binarnych:
- Symetryczny, gdzie 1 i 0 mają równe znaczenie (płeć, stan cywilny itp.)
- Asymetryczny, gdzie 1 i 0 mają różne poziomy ważności (pozytywny wynik testu na chorobę)
Podobieństwo cosinus jest zwykle używane w kontekście eksploracji tekstu do porównywania dokumentów lub wiadomości e-mail. Jeśli podobieństwo cosinus między dwoma wektorami terminów dokumentu jest wyższe, wówczas oba dokumenty mają większą liczbę wspólnych słów
Inna różnica to 1 – Współczynnik Jaccarda może być użyty jako miara podobieństwa lub odległości, podczas gdy podobieństwo kosinusowe nie ma takich konstrukcji. Podobną rzeczą jest odległość Tonimoto, która jest używana w taksonomii.