Jak dodać dodatkową kolumnę do tablicy NumPy

Powiedzmy, że mam tablicę NumPy, a:

a = np.array([
    [1, 2, 3],
    [2, 3, 4]

I chciałbym dodać kolumnę zer, aby uzyskać tablicę, b:

b = np.array([
    [1, 2, 3, 0],
    [2, 3, 4, 0]

Jak mogę to zrobić łatwo w NumPy?

Author: Peter Mortensen, 2011-12-13

14 answers

Myślę, że prostszym rozwiązaniem i szybszym uruchomieniem jest wykonanie następujących czynności:

import numpy as np
N = 10
a = np.random.rand(N,N)
b = np.zeros((N,N+1))
b[:,:-1] = a

I timingi:

In [23]: N = 10

In [24]: a = np.random.rand(N,N)

In [25]: %timeit b = np.hstack((a,np.zeros((a.shape[0],1))))
10000 loops, best of 3: 19.6 us per loop

In [27]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 5.62 us per loop
Author: JoshAdel,
2015-04-12 11:31:34

np.r_[ ... ] oraz np.c_[ ... ] są użytecznymi alternatywami dla vstack i hstack, z nawiasami kwadratowymi [] zamiast round ().
Kilka przykładów:

: import numpy as np
: N = 3
: A = np.eye(N)

: np.c_[ A, np.ones(N) ]              # add a column
array([[ 1.,  0.,  0.,  1.],
       [ 0.,  1.,  0.,  1.],
       [ 0.,  0.,  1.,  1.]])

: np.c_[ np.ones(N), A, np.ones(N) ]  # or two
array([[ 1.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  1.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  1.]])

: np.r_[ A, [A[1]] ]              # add a row
array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  1.,  0.]])
: # not np.r_[ A, A[1] ]

: np.r_[ A[0], 1, 2, 3, A[1] ]    # mix vecs and scalars
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], [1, 2, 3], A[1] ]  # lists
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], (1, 2, 3), A[1] ]  # tuples
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], 1:4, A[1] ]        # same, 1:4 == arange(1,4) == 1,2,3
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

(powód dla nawiasów kwadratowych [] zamiast okrągłych () czy Python rozszerza np. 1:4 w kwadracie -- cuda przeciążenia.)

Author: denis,
2011-12-14 13:56:43

Użycie numpy.append:

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])

>>> z = np.zeros((2,1), dtype=int64)
>>> z

>>> np.append(a, z, axis=1)
array([[1, 2, 3, 0],
       [2, 3, 4, 0]])
Author: gemy,
2014-02-27 17:29:43

Jednym ze sposobów, używając hstack, jest:

b = np.hstack((a, np.zeros((a.shape[0], 1), dtype=a.dtype)))
Author: Peter Smit,
2018-06-27 20:17:11


np.column_stack((a, zeros(shape(a)[0])))
Jest bardziej elegancki.
Author: user2820502,
2013-09-26 17:09:28

Uważam za najbardziej eleganckie:

b = np.insert(a, 3, values=0, axis=1) # Insert values before column 3

Zaletą insert jest to, że umożliwia również wstawianie kolumn (lub wierszy) w innych miejscach wewnątrz tablicy. Również zamiast wstawiania pojedynczej wartości można łatwo wstawić cały wektor, np. powielić ostatnią kolumnę:

b = np.insert(a, insert_index, values=a[:,2], axis=1)

Co prowadzi do:

array([[1, 2, 3, 3],
       [2, 3, 4, 4]])

Na czas, insert może być wolniejszy niż rozwiązanie Joshadela:

In [1]: N = 10

In [2]: a = np.random.rand(N,N)

In [3]: %timeit b = np.hstack((a, np.zeros((a.shape[0], 1))))
100000 loops, best of 3: 7.5 µs per loop

In [4]: %timeit b = np.zeros((a.shape[0], a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 2.17 µs per loop

In [5]: %timeit b = np.insert(a, 3, values=0, axis=1)
100000 loops, best of 3: 10.2 µs per loop
Author: Björn,
2018-06-27 20:19:58

Byłem również zainteresowany tym pytaniem i porównałem szybkość

numpy.c_[a, a]
numpy.stack([a, a]).T
numpy.vstack([a, a]).T
numpy.ascontiguousarray(numpy.stack([a, a]).T)               
numpy.ascontiguousarray(numpy.vstack([a, a]).T)
numpy.column_stack([a, a])
numpy.concatenate([a[:,None], a[:,None]], axis=1)
numpy.concatenate([a[None], a[None]], axis=0).T

Które robią to samo dla dowolnego wektora wejściowego a. Czas uprawy a:

Tutaj wpisz opis obrazka

Zauważ, że wszystkie warianty nieciągłe (w szczególności stack/vstack) są w końcu szybsze niż wszystkie sąsiadujące warianty. column_stack (dla jasności i szybkości) wydaje się być dobrym rozwiązaniem, jeśli potrzebujesz przyległości.

Kod do odtworzenia fabuły:

import numpy
import perfplot

    setup=lambda n: numpy.random.rand(n),
        lambda a: numpy.c_[a, a],
        lambda a: numpy.ascontiguousarray(numpy.stack([a, a]).T),
        lambda a: numpy.ascontiguousarray(numpy.vstack([a, a]).T),
        lambda a: numpy.column_stack([a, a]),
        lambda a: numpy.concatenate([a[:, None], a[:, None]], axis=1),
        lambda a: numpy.ascontiguousarray(numpy.concatenate([a[None], a[None]], axis=0).T),
        lambda a: numpy.stack([a, a]).T,
        lambda a: numpy.vstack([a, a]).T,
        lambda a: numpy.concatenate([a[None], a[None]], axis=0).T,
        'c_', 'ascont(stack)', 'ascont(vstack)', 'column_stack', 'concat',
        'ascont(concat)', 'stack (non-cont)', 'vstack (non-cont)',
        'concat (non-cont)'
    n_range=[2**k for k in range(20)],
Author: Nico Schlömer,
2017-11-06 13:40:08

Np.concatenate działa również

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])
>>> z = np.zeros((2,1))
>>> z
array([[ 0.],
       [ 0.]])
>>> np.concatenate((a, z), axis=1)
array([[ 1.,  2.,  3.,  0.],
       [ 2.,  3.,  4.,  0.]])
Author: han4wluc,
2016-01-27 00:54:14

Podoba mi się odpowiedź Joshadela ze względu na skupienie się na wydajności. Drobną poprawą wydajności jest unikanie narzutu inicjalizacji za pomocą zer, tylko do nadpisania. Ma to wymierną różnicę, gdy N jest duże, zamiast zer używane jest puste, a Kolumna zer jest zapisywana jako oddzielny Krok:

In [1]: import numpy as np

In [2]: N = 10000

In [3]: a = np.ones((N,N))

In [4]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
1 loops, best of 3: 492 ms per loop

In [5]: %timeit b = np.empty((a.shape[0],a.shape[1]+1)); b[:,:-1] = a; b[:,-1] = np.zeros((a.shape[0],))
1 loops, best of 3: 407 ms per loop
Author: toddInPortland,
2013-12-28 19:35:55

Zakładając, że M jest (100,3) ndarray i y jest (100,) ndarray append można użyć w następujący sposób:


Sztuczka polega na użyciu

y[:, None]

To konwertuje y do tablicy (100, 1) 2D.


Teraz daje

(100, 4)
Author: Roel Verhoeven,
2017-05-29 15:15:26

Trochę za późno na imprezę, ale nikt jeszcze nie opublikował tej odpowiedzi, więc ze względu na kompletność: możesz to zrobić z list comprehensions, na zwykłej tablicy Pythona:

source = a.tolist()
result = [row + [0] for row in source]
b = np.array(result)
Author: btk,
2015-06-16 20:36:37

np.insert również służy temu celowi.

matA = np.array([[1,2,3], 
idx = 3
new_col = np.array([0, 0])
np.insert(matA, idx, new_col, axis=1)

array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

Wstawia wartości, tutaj new_col, przed danym indeksem, tutaj idx wzdłuż jednej osi. Innymi słowy, nowo wstawione wartości zajmują kolumnę idx i przesuwają to, co pierwotnie znajdowało się w kolumnie idx do tyłu.

Author: Tai,
2018-01-03 17:05:14

Istnieje funkcja specjalnie do tego. Nazywa się numpy.pad

a = np.array([[1,2,3], [2,3,4]])
b = np.pad(a, ((0, 0), (0, 1)), mode='constant', constant_values=0)
print b
>>> array([[1, 2, 3, 0],
           [2, 3, 4, 0]])

Oto, co jest napisane w docstringu:

Pads an array.

array : array_like of rank N
    Input array
pad_width : {sequence, array_like, int}
    Number of values padded to the edges of each axis.
    ((before_1, after_1), ... (before_N, after_N)) unique pad widths
    for each axis.
    ((before, after),) yields same before and after pad for each axis.
    (pad,) or int is a shortcut for before = after = pad width for all
mode : str or function
    One of the following string values or a user supplied function.

        Pads with a constant value.
        Pads with the edge values of array.
        Pads with the linear ramp between end_value and the
        array edge value.
        Pads with the maximum value of all or part of the
        vector along each axis.
        Pads with the mean value of all or part of the
        vector along each axis.
        Pads with the median value of all or part of the
        vector along each axis.
        Pads with the minimum value of all or part of the
        vector along each axis.
        Pads with the reflection of the vector mirrored on
        the first and last values of the vector along each
        Pads with the reflection of the vector mirrored
        along the edge of the array.
        Pads with the wrap of the vector along the axis.
        The first values are used to pad the end and the
        end values are used to pad the beginning.
        Padding function, see Notes.
stat_length : sequence or int, optional
    Used in 'maximum', 'mean', 'median', and 'minimum'.  Number of
    values at edge of each axis used to calculate the statistic value.

    ((before_1, after_1), ... (before_N, after_N)) unique statistic
    lengths for each axis.

    ((before, after),) yields same before and after statistic lengths
    for each axis.

    (stat_length,) or int is a shortcut for before = after = statistic
    length for all axes.

    Default is ``None``, to use the entire axis.
constant_values : sequence or int, optional
    Used in 'constant'.  The values to set the padded values for each

    ((before_1, after_1), ... (before_N, after_N)) unique pad constants
    for each axis.

    ((before, after),) yields same before and after constants for each

    (constant,) or int is a shortcut for before = after = constant for
    all axes.

    Default is 0.
end_values : sequence or int, optional
    Used in 'linear_ramp'.  The values used for the ending value of the
    linear_ramp and that will form the edge of the padded array.

    ((before_1, after_1), ... (before_N, after_N)) unique end values
    for each axis.

    ((before, after),) yields same before and after end values for each

    (constant,) or int is a shortcut for before = after = end value for
    all axes.

    Default is 0.
reflect_type : {'even', 'odd'}, optional
    Used in 'reflect', and 'symmetric'.  The 'even' style is the
    default with an unaltered reflection around the edge value.  For
    the 'odd' style, the extented part of the array is created by
    subtracting the reflected values from two times the edge value.

pad : ndarray
    Padded array of rank equal to `array` with shape increased
    according to `pad_width`.

.. versionadded:: 1.7.0

For an array with rank greater than 1, some of the padding of later
axes is calculated from padding of previous axes.  This is easiest to
think about with a rank 2 array where the corners of the padded array
are calculated by using padded values from the first axis.

The padding function, if used, should return a rank 1 array equal in
length to the vector argument with padded values replaced. It has the
following signature::

    padding_func(vector, iaxis_pad_width, iaxis, kwargs)


    vector : ndarray
        A rank 1 array already padded with zeros.  Padded values are
        vector[:pad_tuple[0]] and vector[-pad_tuple[1]:].
    iaxis_pad_width : tuple
        A 2-tuple of ints, iaxis_pad_width[0] represents the number of
        values padded at the beginning of vector where
        iaxis_pad_width[1] represents the number of values padded at
        the end of vector.
    iaxis : int
        The axis currently being calculated.
    kwargs : dict
        Any keyword arguments the function requires.

>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2,3), 'constant', constant_values=(4, 6))
array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])

>>> np.pad(a, (2, 3), 'edge')
array([1, 1, 1, 2, 3, 4, 5, 5, 5, 5])

>>> np.pad(a, (2, 3), 'linear_ramp', end_values=(5, -4))
array([ 5,  3,  1,  2,  3,  4,  5,  2, -1, -4])

>>> np.pad(a, (2,), 'maximum')
array([5, 5, 1, 2, 3, 4, 5, 5, 5])

>>> np.pad(a, (2,), 'mean')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> np.pad(a, (2,), 'median')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> a = [[1, 2], [3, 4]]
>>> np.pad(a, ((3, 2), (2, 3)), 'minimum')
array([[1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [3, 3, 3, 4, 3, 3, 3],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1]])

>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2, 3), 'reflect')
array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2])

>>> np.pad(a, (2, 3), 'reflect', reflect_type='odd')
array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8])

>>> np.pad(a, (2, 3), 'symmetric')
array([2, 1, 1, 2, 3, 4, 5, 5, 4, 3])

>>> np.pad(a, (2, 3), 'symmetric', reflect_type='odd')
array([0, 1, 1, 2, 3, 4, 5, 5, 6, 7])

>>> np.pad(a, (2, 3), 'wrap')
array([4, 5, 1, 2, 3, 4, 5, 1, 2, 3])

>>> def pad_with(vector, pad_width, iaxis, kwargs):
...     pad_value = kwargs.get('padder', 10)
...     vector[:pad_width[0]] = pad_value
...     vector[-pad_width[1]:] = pad_value
...     return vector
>>> a = np.arange(6)
>>> a = a.reshape((2, 3))
>>> np.pad(a, 2, pad_with)
array([[10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10,  0,  1,  2, 10, 10],
       [10, 10,  3,  4,  5, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10]])
>>> np.pad(a, 2, pad_with, padder=100)
array([[100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100,   0,   1,   2, 100, 100],
       [100, 100,   3,   4,   5, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100]])
Author: Ivan Hoffmann,
2018-03-19 07:31:33

W moim przypadku musiałem dodać kolumnę jedynek do tablicy NumPy

X = array([ 6.1101, 5.5277, ... ])
X.shape => (97,)
X = np.concatenate((np.ones((m,1), dtype=np.int), X.reshape(m,1)), axis=1)

Po X. kształt => (97, 2)

array([[ 1. , 6.1101],
       [ 1. , 5.5277],
Author: Mircea Stanciu,
2018-06-27 20:22:31