scikit-learn

Scikit-naucz się zbalansowanego podpróbkowania

Próbuję stworzyć N zbalansowanych losowych podpróbek mojego dużego, niezbalansowanego zbioru danych. Czy jest jakiś sposób, a ... dpowiedniek w sklearn? http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample (wiem o ważeniu, ale nie tego Szukam.)

Możliwość zastosowania algorytmów online na plikach big data w sklepie?

Chciałbym zastosować szybkie techniki redukcji wymiarów online, takie jak (online/mini-batch) Nauka słownika na dużych korpus ... nad plikiem, a nie ładować wszystko do pamięci. Czy można to zrobić ze sklepn ? czy istnieją alternatywy ? Dzięki register

TF-idf posiada wagi przy użyciu sklearn.ekstrakcja funkcji.tekst.TfidfVectorizer

Ta strona: http://scikit-learn.org/stable/modules/feature_extraction.html wzmianki: Ponieważ tf-idf jest bardzo często ... t; 1 vectorizer.idf_ AttributeError: 'TfidfVectorizer' object has no attribute 'idf_' Ale tego atrybutu brakuje. Thanks

Regresja OLS: Scikit vs. Statsmodels?

skrócona wersja: używałem LinearRegression scikit na niektórych danych, ale jestem przyzwyczajony do wartości p, więc umieści ... do triangulacji, jeden dał znacznie niższy R^2, jeden zapętlił się na pięć minut I go zabiłem, a jeden rozbił się.) Dzięki!

Jak znaleźć znaczenie cech dla modelu regresji logistycznej?

Mam binarny model predykcji trenowany przez algorytm regresji logistycznej. Chcę wiedzieć, które cechy (predyktory) są ważnie ... nie złośliwy. Chcę wiedzieć, które z cech są ważniejsze dla złośliwego, a nie złośliwego przewidywania. Czy to ma jakiś sens?

Korzystanie z DictVectorizer ze skleparn DecisionTreeClassifier

Próbuję uruchomić drzewo decyzyjne z Pythonem i sklearn. Podejście do pracy było takie: import pandas as pd from sklearn im ... ctions_as_dataframe = train.join(pd.DataFrame({"Prediction": predictions})) print predictions_as_dataframe Wszystko działa

Jak zakodować jeden-gorący-kod z kolumny pandy zawierającej listę?

Chciałbym rozbić kolumnę składającą się z listy elementów na tyle kolumn, ile jest unikalnych elementów tj. one-hot-encode je ... 1 0 0 1 B 42 0 0 1 0 Jak mogę wykorzystać pandy / sklep,aby to osiągnąć?

Jak mogę użyć niestandardowej funkcji wyboru w scikit-learn`s ' pipeline

Załóżmy, że chcę porównać różne podejścia do redukcji wymiarów dla określonego (nadzorowanego) zbioru danych, który składa si ... wyboru funkcji, która ma metodę transform i metodę fit, która zwraca dwie kolumny tablicy numpy?? A może jest lepszy sposób?

Ocena regresji logistycznej z walidacją krzyżową

Chciałbym wykorzystać cross validation do testowania / trenowania mojego zbioru danych i oceny wydajności modelu regresji log ... ation import cross_val_score logreg = LogisticRegression() cross_val_score(logreg, X, y, cv=10, scoring='roc_auc').mean()

Jak mogę zadzwonić do scikit-poznaj klasyfikatory z Javy?

Mam klasyfikator, który trenowałem używając Pythona scikit-learn. Jak Mogę używać klasyfikatora z programu Java? Czy Mogę uży ... ython? Czy jest jakiś sposób, aby zapisać klasyfikator w Pythonie i załadować go w Javie? Jest jakiś inny sposób, by go użyć?

Zespół różnego rodzaju regresorów przy użyciu scikit-learn (lub innego frameworka Pythona)

Próbuję rozwiązać zadanie regresji. Dowiedziałem się, że 3 modele działają dobrze dla różnych podzbiorów danych: LassoLARS, S ... eli, który spróbuje uzyskać optymalne wagi dla każdego z 3 modeli, ale nie jestem pewien, czy to jest najlepszy sposób na to.

Jak używać skalarn fit transform z pand i zwracać dataframe zamiast tablicy numpy?

Chcę zastosować skalowanie (używając StandardScaler () z sklepu.preprocessing) do ramki danych pandy. Poniższy kod zwraca tab ... astosować skalowanie do ramki danych pandy, pozostawiając ramkę danych nienaruszoną? Bez kopiowania danych, jeśli to możliwe.

Przycinanie Drzew

Poniżej znajduje się fragment drzewa decyzyjnego, ponieważ jest on dość ogromny. Jak sprawić, by drzewo przestało rosnąć, gd ... sąsiednią wartość w węźle, a nie pewną wartość. 11/9 / \ 6/4 5/5 / \ / \ 6/0 0/4 2/2 3/3

Czy sklearn random forest może bezpośrednio obsługiwać cechy kategoryczne?

Powiedzmy, że mam funkcję kategoryczną, kolor, która przyjmuje wartości ['czerwony', 'niebieski',' zielony','pomarańczowy'] ... musi być sposób, aby poradzić sobie ze zmiennymi kategorycznymi bez arbitralnego kodowania ich jako liczb lub czegoś takiego.

Scikit Learn: model regresji logistycznej współczynniki: Wyjaśnienie

Muszę wiedzieć, jak zwrócić współczynniki regresji logistycznej w taki sposób, aby sam wygenerować przewidywane prawdopodobie ... nie. Czy ktoś ma odpowiedni format do generowania przewidywanych prawdopodobieństw z Scikit Learn LogisticRegression? Dzięki!

scikit-learn-krzywa ROC z przedziałami ufności

Jestem w stanie uzyskać krzywą ROC używając scikit-learn z fpr, tpr, thresholds = metrics.roc_curve(y_true,y_pred, pos_label= ... uję dowiedzieć się, jak dodać przedziały ufności do tej krzywej, ale nie znalazłem łatwego sposobu, aby to zrobić z skleparn.

wykreśl dokument Wykres TFIDF 2D

Chciałbym wykreślić wykres 2d z osią x jako term i osią y jako wynikiem TFIDF (lub ID dokumentu) dla mojej listy zdań. Użyłem ... 10, verbose=1) km.fit(vectorized) PRINT km.labels_ # Returns a list of clusters ranging 0 to 10 Dzięki,

Jak znaleźć odpowiednią klasę w clf.predict proba()

Mam kilka klas i odpowiadających im wektorów funkcji, a kiedy uruchomię predict_proba (), otrzymam to: classes = ['one','two ... odpowiedni Indeks do pierwszego spotkania klasy, czy istnieje polecenie w rodzaju clf.getClasses() = ['one','two','three']?

Jaka jest różnica między predict proba a decision function w scikit-learn?

Studiuję scikit-learn example (Porównanie klasyfikatorów) i pomyliłem się z predict_proba i decision_function. Wykreślają w ... jeden z dwóch punktów? Który z nich jest bardziej właściwy do interpretacji wyniku klasyfikacji i jak wybrać z tych dwóch?

Lime vs TreeInterpreter do interpretacji drzewa decyzyjnego [zamknięty]

Zamknięte. to pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. ... ch obrazach Co tu się dzieje ? Problem rośnie, gdy funkcje są 1000+, gdzie każda cyfra ma znaczenie dla podjęcia decyzji.