gradient descent using python and numpy

def gradient(X_norm,y,theta,alpha,m,n,num_it):
    for i in range(0,num_it):,theta)
        #temp[j]=theta[j]-(alpha/m)*(  np.sum( (h-y)*X_norm[:,j][np.newaxis,:] )  )
    return theta

#length of X (number of rows)
print theta

Moja theta z powyższego kodu to 100.2 100.2, ale powinna być 100.2 61.09 w Matlabie co jest poprawne.

Author: Thomas Jungblut, 2013-07-22

4 answers

Myślę, że Twój kod jest trochę zbyt skomplikowany i wymaga większej struktury, ponieważ w przeciwnym razie zgubisz się we wszystkich równaniach i operacjach. W końcu regresja ta sprowadza się do czterech operacji:

  1. Oblicz hipotezę h = X * theta
  2. Oblicz stratę = h-y i może kwadratowy koszt (strata^2) / 2M
  3. Oblicz gradient = x ' * strata / m
  4. zaktualizuj parametry THETA = Theta - alpha * gradient

W Twoim przypadku, myślę, że ty pomylili m z n. Tutaj m oznacza liczbę przykładów w zestawie treningowym, a nie liczbę funkcji.

Spójrzmy na moją odmianę Twojego kodu:

import numpy as np
import random

# m denotes the number of examples here, not the number of features
def gradientDescent(x, y, theta, alpha, m, numIterations):
    xTrans = x.transpose()
    for i in range(0, numIterations):
        hypothesis =, theta)
        loss = hypothesis - y
        # avg cost per example (the 2 in 2*m doesn't really matter here.
        # But to be consistent with the gradient, I include it)
        cost = np.sum(loss ** 2) / (2 * m)
        print("Iteration %d | Cost: %f" % (i, cost))
        # avg gradient per example
        gradient =, loss) / m
        # update
        theta = theta - alpha * gradient
    return theta

def genData(numPoints, bias, variance):
    x = np.zeros(shape=(numPoints, 2))
    y = np.zeros(shape=numPoints)
    # basically a straight line
    for i in range(0, numPoints):
        # bias feature
        x[i][0] = 1
        x[i][1] = i
        # our target variable
        y[i] = (i + bias) + random.uniform(0, 1) * variance
    return x, y

# gen 100 points with a bias of 25 and 10 variance as a bit of noise
x, y = genData(100, 25, 10)
m, n = np.shape(x)
numIterations= 100000
alpha = 0.0005
theta = np.ones(n)
theta = gradientDescent(x, y, theta, alpha, m, numIterations)

Na początku tworzę mały losowy zbiór danych, który powinien wyglądać tak:

Regresja Liniowa

Jak widać dodałem również wygenerowaną linię regresji i formułę, która została obliczona przez Excela.

Musisz zadbać o intuicję regresji za pomocą opadania gradientu. Jako wykonujesz pełne przejście wsadowe nad danymi x, musisz zredukować straty m każdego przykładu do pojedynczej aktualizacji wagi. W tym przypadku jest to średnia sumy nad gradientami, a więc dzielenie przez m.

Następną rzeczą, o którą musisz zadbać, jest śledzenie konwergencji i dostosowanie szybkości uczenia się. W związku z tym zawsze powinieneś śledzić swój koszt przy każdej iteracji, a może nawet planować.

Jeśli użyjesz mojego przykładu, Theta zwrócona będzie wyglądać jak to:

Iteration 99997 | Cost: 47883.706462
Iteration 99998 | Cost: 47883.706462
Iteration 99999 | Cost: 47883.706462
[ 29.25567368   1.01108458]

Które jest w rzeczywistości dość zbliżone do równania obliczonego przez Excela (y = x + 30). Zauważ, że gdy przekazaliśmy bias do pierwszej kolumny, pierwsza wartość theta oznacza wagę biasu.

Author: Thomas Jungblut,
2013-12-21 12:22:58

Poniżej znajduje się moja implementacja opadania gradientu dla problemu regresji liniowej.

Na początku obliczasz gradient podobny do X.T * (X * w - y) / N i jednocześnie aktualizujesz swoją bieżącą theta o ten gradient.

  • x: macierz funkcji
  • y: wartości docelowe
  • w: wagi / wartości
  • N: rozmiar zestawu treningowego

Oto kod Pythona:

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import random

def generateSample(N, variance=100):
    X = np.matrix(range(N)).T + 1
    Y = np.matrix([random.random() * variance + i * 10 + 900 for i in range(len(X))]).T
    return X, Y

def fitModel_gradient(x, y):
    N = len(x)
    w = np.zeros((x.shape[1], 1))
    eta = 0.0001

    maxIteration = 100000
    for i in range(maxIteration):
        error = x * w - y
        gradient = x.T * error / N
        w = w - eta * gradient
    return w

def plotModel(x, y, w):
    plt.plot(x[:,1], y, "x")
    plt.plot(x[:,1], x * w, "r-")

def test(N, variance, modelFunction):
    X, Y = generateSample(N, variance)
    X = np.hstack([np.matrix(np.ones(len(X))).T, X])
    w = modelFunction(X, Y)
    plotModel(X, Y, w)

test(50, 600, fitModel_gradient)
test(50, 1000, fitModel_gradient)
test(100, 200, fitModel_gradient)

test1 test2 test2

Author: Muatik,
2016-04-03 19:22:22

Wiem, że to pytanie już było odpowiedzią, ale zrobiłem jakąś aktualizację do funkcji GD:


def cost(theta,X,y):
     ### Evaluate half MSE (Mean square error)
     m = len(y)
     error =,theta) - y
     J = np.sum(error ** 2)/(2*m)
     return J


def GD(X,y,theta,alpha):

    cost_histo = [0]
    theta_histo = [0]

    # an arbitrary gradient, to pass the initial while() check
    delta = [np.repeat(1,len(X))]
    # Initial theta
    old_cost = cost(theta,X,y)

    while (np.max(np.abs(delta)) > 1e-6):
        error =,theta) - y
        delta =,error)/len(y)
        trial_theta = theta - alpha * delta
        trial_cost = cost(trial_theta,X,y)
        while (trial_cost >= old_cost):
            trial_theta = (theta +trial_theta)/2
            trial_cost = cost(trial_theta,X,y)
            cost_histo = cost_histo + trial_cost
            theta_histo = theta_histo +  trial_theta
        old_cost = trial_cost
        theta = trial_theta
    Intercept = theta[0] 
    Slope = theta[1]  
    return [Intercept,Slope]

res = GD(X,y,theta,alpha)

Ta funkcja redukuje Alfę nad iteracją, dzięki czemu funkcja zbyt szybko się zbiega Zobacz Szacowanie regresji liniowej z opadaniem gradientu (najbardziej strome zejście) dla przykładu w R. stosuję tę samą logikę, ale w Pythonie.

Author: Nico Coallier,
2018-03-21 05:12:01

Po implementacji @ thomas-jungblut w Pythonie, zrobiłem to samo dla Octave. Jeśli znajdziesz coś nie tak, daj mi znać,a ja naprawię + aktualizację.

Dane pochodzą z pliku txt z następującymi wierszami:

1 10 1000
2 20 2500
3 25 3500
4 40 5500
5 60 6200

Pomyśl o tym jako bardzo przybliżoną próbkę funkcji [liczba sypialni] [mts2] i ostatniej kolumny [cena wynajmu], która jest tym, co chcemy przewidzieć.

Oto implementacja oktawy:

% Linear Regression with multiple variables

% Alpha for learning curve
alphaNum = 0.0005;

% Number of features
n = 2;

% Number of iterations for Gradient Descent algorithm
iterations = 10000

% No need to update after here


% Initial theta values
theta = ones(n + 1, 1);

% Number of training samples
m = length(DATA(:, 1));

% X with one mor column (x0 filled with '1's)
X = ones(m, 1);
for i = 1:n
  X = [X, DATA(:,i)];

% Expected data must go always in the last column  
y = DATA(:, n + 1)

function gradientDescent(x, y, theta, alphaNum, iterations)
  iterations = [];
  costs = [];

  m = length(y);

  for iteration = 1:10000
    hypothesis = x * theta;

    loss = hypothesis - y;

    % J(theta)    
    cost = sum(loss.^2) / (2 * m);

    % Save for the graphic to see if the algorithm did work
    iterations = [iterations, iteration];
    costs = [costs, cost];

    gradient = (x' * loss) / m; % /m is for the average

    theta = theta - (alphaNum * gradient);

  % Show final theta values

  % Show J(theta) graphic evolution to check it worked, tendency must be zero
  plot(iterations, costs);


% Execute gradient descent
gradientDescent(X, y, theta, alphaNum, iterations);
Author: Fernando Gabrieli,
2018-04-03 02:01:06