data-mining

Jak działa funkcja rekomendacji Amazon?

Jaka technologia wchodzi za ekrany Amazon recommendation technology? Uważam, że rekomendacja Amazon jest obecnie najlepsza na ... sis Koszyk Rynkowy Analiza Analiza Powinowactwa Sugerowana Lektura: Eksploracja danych: koncepcje i Technika

Czy ktoś może podać przykład cosinusowego podobieństwa, w bardzo prosty, graficzny sposób?

Cosinus podobieństwa artykuł na Wikipedii Możesz tu pokazać wektory (na liście czy coś) a potem policz i zobaczmy, jak to działa? Jestem początkujący.

R i Data Mining

Zamiast zacząć kodować w Matlabie, ostatnio zacząłem uczyć się R, głównie dlatego, że jest open-source. Obecnie pracuję w obs ... waż oba języki są dla mnie całkiem nowe, zastanawiałem się, czy R byłby dobrym wyborem, czy nie. Doceniam wszelkie sugestie.

Jaka jest różnica między regresją liniową a regresją logistyczną?

Kiedy musimy przewidzieć wartość kategorycznego (lub dyskretnego) wyniku, używamy regresji logistycznej . Wierzę, że używamy ... eż przewidzieć wartość wyniku biorąc pod uwagę wartości wejściowe. Zatem, jaka jest różnica między tymi dwoma metodologiami?

Dlaczego one hot encoding poprawia wydajność uczenia maszynowego?

Zauważyłem, że gdy jedno gorące kodowanie jest używane na konkretnym zestawie danych (macierzy) i używane jako dane treningow ... nia, w porównaniu z wykorzystaniem samej oryginalnej matrycy jako danych treningowych. W jaki sposób zwiększa się wydajność?

Czym jest intuicyjne Wyjaśnienie techniki maksymalizacji oczekiwań? [zamknięte]

Maksymalizacja oczekiwań, jeśli rodzaj probabilistycznej metody klasyfikacji danych. Proszę mnie poprawić, jeśli się mylę, je ... jest to klasyfikator. Jakie jest intuicyjne wyjaśnienie tej techniki EM? Co to jest oczekiwanie i co jest maksymalizowane?

Jak wyodrębnić słowa kluczowe używane w tekście? [zamknięte]

Jak odczytać stos tekstu, aby uzyskać słowa kluczowe według użycia? ("Jacob Smith" lub "fence") A czy jest już jakiś progra ... omatycznie, a jeśli potrafi odfiltrować proste słowa, takie jak "the", "I", "lub", wtedy mógłbym szybciej dotrzeć do tematów.

R Losowe Lasy Zmienne Znaczenie

Próbuję użyć pakietu random forests do klasyfikacji w R. Wymienione miary znaczenia zmiennej to: średni wynik surowej wa ... żywać radia, nie spodziewałbym się, że to wyjaśnienie będzie wiązało się z tym, jak radio przekształca fale radiowe w dźwięk.

Drzewo decyzyjne a naiwny klasyfikator Bayesa [zamknięty]

Robię kilka badań na temat różnych technik eksploracji danych i natknąłem się na coś, czego nie mogłem rozgryźć. Jeśli ktoś m ... h przypadkach? (Patrząc na jego funkcjonalność, a nie na algorytm) Ktoś ma jakieś wyjaśnienia lub odniesienia na ten temat?

Klastrowanie tablicy liczb 1D [duplikat]

Możliwy duplikat:Klaster danych jednowymiarowych optymalnie? Powiedzmy, że mam taką tablicę: [1,1,2,3,10,11,13,67, ... od liczb? Niektórzy sugerują również sztywne partycjonowanie zakresu, ale nie zawsze renderuje ono wyniki jako oczekiwane

Obliczyć AUC w R?

Biorąc pod uwagę wektor wyników i Wektor rzeczywistych etykiet klas, jak obliczyć metrykę AUC pojedynczej liczby dla binarneg ... nie rozumiem R(Actual == 1)) Ponieważ R (nie mylić z językiem R) jest zdefiniowany jako wektor, ale używany jako funkcja?

Mieszanie kategorycznych i ciągłych danych w naiwnym klasyfikatorze Bayesa za pomocą scikit-learn

Używam scikit-learn w Pythonie do opracowania algorytmu klasyfikacji do przewidywania płci niektórych klientów. Między innymi ... ne kategoryczne i ciągłe w moim modelu, tak naprawdę Nie wiem, jak sobie z tym poradzić. Wszelkie pomysły będą mile widziane!

znaczenie PCA lub SVD w uczeniu maszynowym

Przez cały ten czas (szczególnie w konkursie Netflix), zawsze natykam się na ten blog (lub forum liderów), gdzie wspomnieć, j ... akąś wersję systemu rekomendacji (powiedzmy filtrowanie kolaboracyjne): 1) Without SVD 2) With SVD Jak to pomaga Dzięki

Jak obliczyć parametr regularyzacji w regresji liniowej

Gdy mamy wielomian liniowy wysokiego stopnia, który jest używany do dopasowania zbioru punktów w konfiguracji regresji liniow ... lizacji parametrów theta w algorytmie opadania gradientu. Moje pytanie brzmi jak obliczyć ten parametr regularyzacji lambda?

Matlab-analiza PCA i rekonstrukcja danych wielowymiarowych

Mam duży zbiór danych wielowymiarowych (132 wymiary). Jestem początkujący w wykonywaniu eksploracji danych i chcę zastosować ... unkcje (Wymiary) i 33800 punkty danych. I chcę wykonać PCA na tym zbiorze danych. Każda pomoc lub Podpowiedź by wystarczyła.

Km nie znając liczby gromad? [duplikat]

To pytanie ma już odpowiedź tutaj: Jak określić K przy użyciu K-means clustering? ... również w porządku. Jeśli istnieją alternatywne sposoby osiągnięcia tego samego lub lepszego algorytmu, proszę dać mi znać.

Funkcja kosztów regresji logistycznej

W modelach najmniejszych kwadratów funkcja kosztu jest zdefiniowana jako kwadrat różnicy między wartością przewidywaną a wart ... alną (wartością wyjściową)a rzeczywistą. Czy można zmienić i zdefiniować własną funkcję kosztów w celu określenia parametry?

Jak działa clustering (szczególnie String clustering)?

Słyszałem o grupowaniu podobnych danych. Chcę wiedzieć, jak to działa w konkretnym przypadku dla String. Mam tabelę z ponad ... potrzebne, aby zidentyfikować podobieństwo i zgrupować każde słowo w klastrze? Jaki algorytm jest do tego bardziej zalecany?

scikit-poznaj wykorzystanie pamięci DBSCAN

Zaktualizowano: W końcu rozwiązanie, które zdecydowałem się użyć do klastrowania mojego dużego zestawu danych, zostało zasug ... metrics/pairwise.py", line 237, in manhattan_distances D = np.abs(X[:, np.newaxis, :] - Y[np.newaxis, :, :]) MemoryError

Do jakich informacji możemy uzyskać dostęp od klienta? [zamknięte]

Próbuję skompilować listę informacji dostępnych za pomocą javascript, takich jak: Geolokalizacja adres IP oprogramowani ... wiarygodność jest wyłącznie związana z zaufaniem, ale nadal interesuje mnie, jakie inne informacje można wydobyć od klienta.