scikit-learn

Python-czym dokładnie jest sklearn.rurociąg.Rurociąg?

Nie wiem, jak dokładnie działa. Jest kilka wyjaśnień w doc . Na przykład co oznaczają przez: Rurociąg przekształceń z ... pipln.fit() OR pipln.fit_transform() Nie mogę zrozumieć, jak Estymator może być transformatorem i jak można go zamontować.

Zapisz klasyfikator na dysku w scikit-dowiedz się

Jak zapisać wytrenowany naiwny klasyfikator Bayesa na dysku i użyć go do przewidywania danych? Mam następujący przykładow ... gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

Dlaczego one hot encoding poprawia wydajność uczenia maszynowego?

Zauważyłem, że gdy jedno gorące kodowanie jest używane na konkretnym zestawie danych (macierzy) i używane jako dane treningow ... nia, w porównaniu z wykorzystaniem samej oryginalnej matrycy jako danych treningowych. W jaki sposób zwiększa się wydajność?

Użyj scikit-naucz się klasyfikować do wielu kategorii

Próbuję użyć jednej z metod uczenia nadzorowanych przez scikit-learn, aby sklasyfikować fragmenty tekstu do jednej lub więcej ... er(base_clf).fit(X_vectorized, y_train) Y_pred = clf.predict(smatrix2) print Y_pred Result: ['New York ''London ''Londyn']

Jak podzielić dane na 3 zestawy (pociąg, Walidacja i test)?

Mam ramkę danych pandy i chcę podzielić ją na 3 oddzielne zestawy. Wiem, że używając train_test_split z sklearn.cross_valid ... oś dopasowanie wskaźników. Ale czy istnieje bardziej standardowy / wbudowany sposób na podzielić dane na 3 zestawy zamiast 2?

Jak obliczyć precyzję, przypomnienie, dokładność i wynik f1 dla multiclass case Z scikit learn?

Pracuję nad problemem analizy nastrojów dane wyglądają tak: label instances 5 1190 4 838 3 239 1 ... g="f1" Jak prawidłowo radzić sobie z moimi niezrównoważonymi danymi, aby obliczyć we właściwy sposób metryki klasyfikatora?

regresja logistyczna

Używam funkcji regresji logistycznej sklepu i zastanawiałem się, co każdy z rozwiązujących robi za kulisami, aby rozwiązać problem optymalizacji. Może ktoś pokrótce opisać co robią "newton-cg"," sag"," lbfgs "i" liblinear"?

Jakie są plusy i minusy między get manekiny (Pandy) i OneHotEncoder (Scikit-learn)?

Uczę się różnych metod konwersji zmiennych kategorycznych na liczbowe dla klasyfikatorów uczenia maszynowego. Natknąłem się ... mies(DF_data["target"]) #1000 loops, best of 3: 777 µs per loop %timeit f1(DF_data) #100 loops, best of 3: 2.91 ms per loop

Jak znormalizować tablicę w NumPy do wektora jednostkowego?

Chciałbym przekonwertować tablicę NumPy na wektor jednostkowy. Dokładniej, Szukam równoważnej wersji tej funkcji def normali ... return v return v / norm Czy jest coś takiego w skearn lub numpy? Funkcja ta działa w sytuacji, gdy v jest wektorem 0.

Jak działa parametr wagowy klasy w scikit-learn?

Mam wiele problemów ze zrozumieniem, jak działa parametr class_weight w regresji logistycznej scikit-learn. Sytuacja Chcę ... 1: 1. Czy to prawda? Jeśli nie, czy ktoś może to wyjaśnić? Dziękuję bardzo, wszelkie wyjaśnienia będą bardzo mile widziane!

Przypisywanie kategorycznych brakujących wartości w scikit-ucz się

Mam dane pandy z kilkoma kolumnami typu tekstowego. Istnieje kilka wartości NaN wraz z tymi kolumnami tekstowymi. Próbuję prz ... un1' jest zwykłą (nie brakującą) wartością z pierwszej kolumny o categorical data. Każda pomoc będzie bardzo mile widziana]}

Analiza głównych komponentów (PCA) w Pythonie

Mam tablicę (26424 x 144) i chcę nad nią wykonać PCA używając Pythona. Nie ma jednak konkretnego miejsca w sieci, które wyjaś ... własnymi - nie ma uogólnionego sposobu, aby to zrobić, abym mógł znaleźć). Każdy, kto ma jakąś pomoc, poradzi sobie świetnie.

Jak przewidywać szeregi czasowe w scikit-learn?

Scikit-learn wykorzystuje bardzo wygodne podejście oparte na metodach fit i predict. Mam dane szeregów czasowych w formacie o ... + k4*EMOV_n, gdzie EMOV_n jest tylko wykładniczą średnią kroczącą. Jak mogę zaimplementować ten prosty model w scikit-learn?

Jak się uczyć.svm.funkcja SVC predict proba () działa wewnętrznie?

Używam sklearn.svm.svc z scikit-naucz się {[2] } robić klasyfikację binarną. Używam jego funkcji predict_proba (), aby uzyskać szacunki prawdopodobieństwa. Czy ktoś może mi powiedzieć jak predict_proba () wewnętrznie oblicza prawdopodobieństwo?

Jak uzyskać najbardziej pouczające funkcje dla scikit-naucz klasyfikatorów?

Klasyfikatory w pakietach uczenia maszynowego, takich jak liblinear i nltk, oferują metodę show_most_informative_features(), ... nie znalazłem. Jeśli nie ma jeszcze takiej funkcji, czy ktoś zna obejście, jak dostać się do tych wartości? Wielkie dzięki!

RandomForestClassifier vs ExtraTreesClassifier w scikit dowiedz się

Czy ktoś może wyjaśnić różnicę między RandomForestClassifier i ExtraTreesClassifier w scikit learn. Spędziłem trochę czasu c ... ałkowicie losowo z zakresu wartości w próbce przy każdym podziale. Wynikiem tych dwóch rzeczy jest o wiele więcej "liści".

Jakie są różne przypadki użycia joblib vs pickle?

Tło: dopiero zaczynam z scikit-ucz się i przeczytaj na dole strony o joblib, kontra pickle. Ciekawsze może być użycie z ... nawiam się, czy społeczność tutaj może udostępnić różnice między joblib a ogórkiem? Kiedy należy używać jednego nad drugim?

Jak zobaczyć top N wpisy term-Matrix dokumentu po tfidf w scikit-dowiedz się

Jestem nowy w scikit-learn i używałem TfidfVectorizer, aby znaleźć wartości tfidf terminów w zbiorze dokumentów. Użyłem poniż ... óra pomoże mi znaleźć top N wpisy na podstawie tfidf wynik na ngram tj. top wpisy wśród unigram, bigram, trygram i tak dalej?

ImportError: no module named sklearn.Walidacja krzyżowa

Używam Pythona 2.7 w Ubuntu 14.04. Zainstalowałem scikit-learn, numpy i matplotlib z tymi poleceniami: sudo apt-get install ... tion import train_test_split Zwraca mi ten błąd: ImportError: No module named sklearn.cross_validation Co muszę zrobić?

Różny wynik z ROC AUC score () i auc()

Mam problem ze zrozumieniem różnicy (jeśli istnieje) między roc_auc_score() a auc() w scikit-ucz się. Próbuję przewidzieć wy ... obaj tylko obliczają obszar pod krzywą ROC. Może z powodu niezrównoważonego zbioru danych, ale ja Nie wiem dlaczego. Dzięki!