information-retrieval

Python: TF-idf-cosine: aby znaleźć podobieństwo dokumentów

Śledziłem tutorial, który był dostępny w Część 1 & Część 2 . Niestety autor nie miał czasu na ostatnią część, która poleg ... odobieństwa w odniesieniu do dwóch wektorów o podobnej długości, ale tutaj nie jestem pewien, jak zidentyfikować dwa wektory.

Jakie wypróbowane i prawdziwe algorytmy sugerowania powiązanych artykułów są tam?

Dość powszechna sytuacja, założę się. Masz bloga lub stronę z wiadomościami i masz mnóstwo artykułów lub blagów lub jak je na ... obecna odpowiedź jest całkiem dobra, ale chciałbym zobaczyć więcej. Może jakiś naprawdę nagi przykładowy kod na coś lub dwa.

Jak zbudować prosty indeks odwrócony?

Chcę zbudować prostą funkcję indeksowania wyszukiwarki bez żadnego API, takiego jak Lucene. W indeksie odwróconym muszę tylko ... owa? Jak po zbudowaniu indeksu zapisać go do plików? Jaki format pliku? Jak stół? Jak rysowanie tabeli indeksów na papierze?

Jak analizować dane z alertów Google?

Po pierwsze, w jaki sposób można uzyskać informacje Alerty Google do bazy danych innych niż analizować tekst wiadomości e-mai ... ma Google Alerts API. Jeśli musisz przeanalizować tekst, jak chcesz przeanalizować odpowiednie fragmenty wiadomości e-mail?

Wyszukiwanie informacji (IR) a eksploracja danych a uczenie maszynowe (ML)

Ludzie często rzucają wokół terminów IR, ML i data mining, ale zauważyłem wiele nakładania się między nimi. Od ludzi z doświadczeniem w tych dziedzinach, co dokładnie wyznacza granicę między nimi?

Podobieństwo cosinus i TF-idf

Jestem zdezorientowany poniższym komentarzem na temat TF-IDF i Cosinusowego podobieństwa . Czytałem na obu, a następnie na ... e. Myślałem, że tf-idf to coś, co można zrobić przed uruchomieniem cosinusowego podobieństwa na tekstach. Coś mnie ominęło?

Jak poprawić wpis użytkownika (Rodzaj google "miałeś na myśli?")

Mam następujący wymóg: - Mam wiele (powiedzmy 1 milion) wartości (nazw). Użytkownik wpisze szukany ciąg. Nie oczekuję, że ... óżne rzeczy; np. Sean i Shawn brzmią tak samo, ale mają odległość edycji 3-zbyt wysoką, aby można było uznać je za literówkę.

Jak mogę wyodrębnić tylko główną zawartość tekstową ze strony HTML?

Update Boilerpipe wydaje się działać naprawdę dobrze, ale zdałem sobie sprawę, że nie potrzebuję tylko głównej treści, poni ... m pytaniu : https://stackoverflow.com/questions/7035150/how-to-traverse-the-dom-tree-using-jsoup-doing-some-content-filtering

Podobieństwo Użytkowników Na Podstawie Głosów

Powiedzmy, że mam zestaw użytkowników, zestaw piosenek i zestaw głosów na każdy utwór: =========== =========== ======= User ... ków na podstawie głosów piosenek? czy jest lepszy sposób niż ocenianie każdego użytkownika i każdego głosu na każdą piosenkę?