Tworzenie partii w linq

Czy ktoś może zasugerować sposób na tworzenie partii o określonej wielkości w linq?

Najlepiej, aby móc wykonywać operacje w kawałkach jakiejś konfigurowalnej ilości.

Author: BlakeH, 2012-12-06

11 answers

Nie musisz pisać żadnego kodu. Użyj MoreLINQ metody wsadowej, która wsaduje sekwencję źródłową do wielkości wiadra (MoreLINQ jest dostępny jako pakiet NuGet, który możesz zainstalować):

int size = 10;
var batches = sequence.Batch(size);

Który jest realizowany jako:

public static IEnumerable<IEnumerable<TSource>> Batch<TSource>(
                  this IEnumerable<TSource> source, int size)
    TSource[] bucket = null;
    var count = 0;

    foreach (var item in source)
        if (bucket == null)
            bucket = new TSource[size];

        bucket[count++] = item;
        if (count != size)

        yield return bucket;

        bucket = null;
        count = 0;

    if (bucket != null && count > 0)
        yield return bucket.Take(count);
Author: Sergey Berezovskiy,
2016-08-25 19:50:49
public static class MyExtensions
    public static IEnumerable<IEnumerable<T>> Batch<T>(this IEnumerable<T> items,
                                                       int maxItems)
        return items.Select((item, inx) => new { item, inx })
                    .GroupBy(x => x.inx / maxItems)
                    .Select(g => g.Select(x => x.item));

A użycie byłoby:

List<int> list = new List<int>() { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 };

foreach(var batch in list.Batch(3))


Author: L.B,
2012-12-05 20:41:17

Wszystkie powyższe funkcje działają strasznie przy dużych partiach lub małej przestrzeni pamięci. Musiałem napisać swój własny, który będzie pipeline (notice no item accumulation anywhere):

public static class BatchLinq {
    public static IEnumerable<IEnumerable<T>> Batch<T>(this IEnumerable<T> source, int size) {
        if (size <= 0)
            throw new ArgumentOutOfRangeException("size", "Must be greater than zero.");

        using (IEnumerator<T> enumerator = source.GetEnumerator())
            while (enumerator.MoveNext())
                yield return TakeIEnumerator(enumerator, size);

    private static IEnumerable<T> TakeIEnumerator<T>(IEnumerator<T> source, int size) {
        int i = 0;
            yield return source.Current;
        while (++i < size && source.MoveNext());

Edit: znany problem z tym podejściem polega na tym, że każda partia musi być wyliczona i wyliczona w całości przed przejściem do następnej partii. Na przykład to nie działa:

//Select first item of every 100 items
Batch(list, 100).Select(b => b.First())
Author: Nick Whaley,
2013-07-15 15:32:53

Jeśli zaczynasz od sequence zdefiniowanego jako IEnumerable<T> i wiesz, że można bezpiecznie wyliczyć go wiele razy( np. ponieważ jest to tablica lub lista), możesz użyć tego prostego wzorca do przetwarzania elementów w partiach:

while (sequence.Any())
    var batch = sequence.Take(10);
    sequence = sequence.Skip(10);

    // do whatever you need to do with each batch here
Author: Matthew Strawbridge,
2017-01-06 22:23:54

Jest to w pełni leniwa, nisko nadmiarowa, jednofunkcyjna implementacja partii, która nie robi żadnej akumulacji. Na podstawie (i rozwiązuje problemy w) nicku Whaley rozwiązanie z Pomocą EricRoller.

Iteracja pochodzi bezpośrednio z podstawowej liczby, więc elementy muszą być wyliczane w ścisłej kolejności i dostępne nie więcej niż jeden raz. Jeśli niektóre elementy nie zostaną zużyte w pętli wewnętrznej, zostaną odrzucone (a próba ponownego uzyskania dostępu przez zapisany iterator spowoduje wyrzucenie InvalidOperationException: Enumeration already finished.).

Możesz przetestować pełną próbkę w . NET Fiddle .

public static class BatchLinq
    public static IEnumerable<IEnumerable<T>> Batch<T>(this IEnumerable<T> source, int size)
        if (size <= 0)
            throw new ArgumentOutOfRangeException("size", "Must be greater than zero.");
        using (var enumerator = source.GetEnumerator())
            while (enumerator.MoveNext())
                int i = 0;
                // Batch is a local function closing over `i` and `enumerator` that
                // executes the inner batch enumeration
                IEnumerable<T> Batch()
                    do yield return enumerator.Current;
                    while (++i < size && enumerator.MoveNext());

                yield return Batch();
                while (++i < size && enumerator.MoveNext()); // discard skipped items
Author: infogulch,
2018-04-08 22:15:25

Dołączam do tego bardzo późno, ale znalazłem coś ciekawszego.

Więc możemy użyć tutaj Skip i Take dla lepszej wydajności.

public static class MyExtensions
        public static IEnumerable<IEnumerable<T>> Batch<T>(this IEnumerable<T> items, int maxItems)
            return items.Select((item, index) => new { item, index })
                        .GroupBy(x => x.index / maxItems)
                        .Select(g => g.Select(x => x.item));

        public static IEnumerable<T> Batch2<T>(this IEnumerable<T> items, int skip, int take)
            return items.Skip(skip).Take(take);


Następnie sprawdziłem z 100000 rekordów. Zapętlenie zajmuje więcej czasu tylko w przypadku Batch

Kod aplikacji konsolowej.

static void Main(string[] args)
    List<string> Ids = GetData("First");
    List<string> Ids2 = GetData("tsriF");

    Stopwatch FirstWatch = new Stopwatch();
    foreach (var batch in Ids2.Batch(5000))
        // Console.WriteLine("Batch Ouput:= " + string.Join(",", batch));
    Console.WriteLine("Done Processing time taken:= "+ FirstWatch.Elapsed.ToString());

    Stopwatch Second = new Stopwatch();

    int Length = Ids2.Count;
    int StartIndex = 0;
    int BatchSize = 5000;
    while (Length > 0)
        var SecBatch = Ids2.Batch2(StartIndex, BatchSize);
        // Console.WriteLine("Second Batch Ouput:= " + string.Join(",", SecBatch));
        Length = Length - BatchSize;
        StartIndex += BatchSize;

    Console.WriteLine("Done Processing time taken Second:= " + Second.Elapsed.ToString());

static List<string> GetData(string name)
    List<string> Data = new List<string>();
    for (int i = 0; i < 100000; i++)
        Data.Add(string.Format("{0} {1}", name, i.ToString()));

    return Data;
Czas jest taki.

Pierwszy - 00:00:00.0708 , 00:00:00.0660

Second (Take and Skip One) - 00:00:00.0008, 00:00:00.0008

Author: Unknown User,
2016-04-12 06:57:20

To samo podejście co MoreLINQ, ale używając List zamiast Array. Nie robiłem benchmarkingu, ale czytelność ma większe znaczenie dla niektórych osób:

    public static IEnumerable<IEnumerable<T>> Batch<T>(this IEnumerable<T> source, int size)
        List<T> batch = new List<T>();

        foreach (var item in source)

            if (batch.Count >= size)
                yield return batch;

        if (batch.Count > 0)
            yield return batch;
Author: user4698855,
2016-05-04 19:04:05

Więc z funkcjonalnym kapeluszem, to wydaje się banalne....ale w C# są pewne znaczące wady.

Prawdopodobnie widzisz to jako unfold of IEnumerable (google to i prawdopodobnie skończy się w niektórych dokumentach Haskell, ale może być kilka rzeczy F# za pomocą unfold, jeśli znasz F#, zezuj na Haskell docs i będzie to miało sens).

Unfold jest powiązany z fold ("Agregat"), z tym wyjątkiem, że zamiast iteracji przez liczbę wejściową, iteracja odbywa się poprzez Dane wyjściowe struktury (jest to podobny związek między IEnumerable i iobservable, w rzeczywistości myślę, że iobservable implementuje "unfold" o nazwie generate...)

Anyway najpierw potrzebujesz metody unfold, myślę, że to działa;

    static IEnumerable<T> Unfold<T, U>(Func<U, IEnumerable<Tuple<U, T>>> f, U seed)
        var maybeNewSeedAndElement = f(seed);

        return maybeNewSeedAndElement.SelectMany(x => new[] { x.Item2 }.Concat(Unfold(f, x.Item1)));

Jest to nieco rozwarte, ponieważ C# nie implementuje niektórych rzeczy, które funkcjonalne langauges biorą za pewnik...ale w zasadzie pobiera ziarno, a następnie generuje odpowiedź "może" następnego elementu w IEnumerable i następnym ziarnie (może nie istnieje w C#, więc użyliśmy IEnumerable, aby to sfałszować), i konkatenuje resztę odpowiedzi (nie mogę ręczyć za " O (n?) "złożoność tego).

Gdy już to zrobisz;

    static IEnumerable<IEnumerable<T>> Batch<T>(IEnumerable<T> xs, int n)
        return Unfold(ys =>
                var head = ys.Take(n);
                var tail = ys.Skip(n);
                return head.Take(1).Select(_ => Tuple.Create(tail, head));
Wszystko wygląda całkiem czysto...bierzesz " N "elementów jako" następny "element w IEnumerable, a "ogon" jest resztą nieprzetworzonej listy. Jeśli w głowie nic nie ma...jesteś skończony...zwracasz " nic " (ale sfałszowane jako puste>)...w przeciwnym razie zwracasz element głowy i ogon do przetworzenia.

Prawdopodobnie możesz to zrobić używając IObservable, prawdopodobnie istnieje już metoda typu "Batch" i prawdopodobnie możesz jej użyć.

Jeśli ryzyko przepełnienia stosu martwi (prawdopodobnie powinno), to powinieneś zaimplementować w F# (i pewnie jest jakaś biblioteka F # (FSharpX?) już z tym).

(zrobiłem tylko kilka podstawowych testów tego, więc mogą tam być dziwne błędy).

Author: Mr D,
2018-04-16 10:12:10

Wiem, że wszyscy używali złożonych systemów do tej pracy, i naprawdę nie rozumiem dlaczego. Take I skip umożliwią wszystkie te operacje przy użyciu wspólnej funkcji select z Func<TSource,Int32,TResult> transform. Like:

public IEnumerable<IEnumerable<T>> Buffer<T>(IEnumerable<T> source, int size)=>
    source.Select((item, index) => source.Skip(size * index).Take(size)).TakeWhile(bucket => bucket.Any());
Author: Johni Michels,
2018-10-03 04:03:48

Napisałem niestandardową implementację IEnumerable, która działa bez linq i gwarantuje pojedyncze wyliczenie danych. Osiąga to również bez konieczności tworzenia list pomocniczych lub tablic, które powodują eksplozje pamięci na dużych zbiorach danych.

Oto kilka podstawowych testów:

    public void ShouldPartition()
        var ints = new List<int> {0, 1, 2, 3, 4, 5, 6, 7, 8, 9};
        var data = ints.PartitionByMaxGroupSize(3);





Metoda rozszerzenia do partycji danych.

/// <summary>
/// A set of extension methods for <see cref="IEnumerable{T}"/>. 
/// </summary>
public static class EnumerableExtender
    /// <summary>
    /// Splits an enumerable into chucks, by a maximum group size.
    /// </summary>
    /// <param name="source">The source to split</param>
    /// <param name="maxSize">The maximum number of items per group.</param>
    /// <typeparam name="T">The type of item to split</typeparam>
    /// <returns>A list of lists of the original items.</returns>
    public static IEnumerable<IEnumerable<T>> PartitionByMaxGroupSize<T>(this IEnumerable<T> source, int maxSize)
        return new SplittingEnumerable<T>(source, maxSize);

Jest to klasa implementująca

    using System.Collections;
    using System.Collections.Generic;

    internal class SplittingEnumerable<T> : IEnumerable<IEnumerable<T>>
        private readonly IEnumerable<T> backing;
        private readonly int maxSize;
        private bool hasCurrent;
        private T lastItem;

        public SplittingEnumerable(IEnumerable<T> backing, int maxSize)
            this.backing = backing;
            this.maxSize = maxSize;

        public IEnumerator<IEnumerable<T>> GetEnumerator()
            return new Enumerator(this, this.backing.GetEnumerator());

        IEnumerator IEnumerable.GetEnumerator()
            return this.GetEnumerator();

        private class Enumerator : IEnumerator<IEnumerable<T>>
            private readonly SplittingEnumerable<T> parent;
            private readonly IEnumerator<T> backingEnumerator;
            private NextEnumerable current;

            public Enumerator(SplittingEnumerable<T> parent, IEnumerator<T> backingEnumerator)
                this.parent = parent;
                this.backingEnumerator = backingEnumerator;
                this.parent.hasCurrent = this.backingEnumerator.MoveNext();
                if (this.parent.hasCurrent)
                    this.parent.lastItem = this.backingEnumerator.Current;

            public bool MoveNext()
                if (this.current == null)
                    this.current = new NextEnumerable(this.parent, this.backingEnumerator);
                    return true;
                    if (!this.current.IsComplete)
                        using (var enumerator = this.current.GetEnumerator())
                            while (enumerator.MoveNext())

                if (!this.parent.hasCurrent)
                    return false;

                this.current = new NextEnumerable(this.parent, this.backingEnumerator);
                return true;

            public void Reset()
                throw new System.NotImplementedException();

            public IEnumerable<T> Current
                get { return this.current; }

            object IEnumerator.Current
                get { return this.Current; }

            public void Dispose()

        private class NextEnumerable : IEnumerable<T>
            private readonly SplittingEnumerable<T> splitter;
            private readonly IEnumerator<T> backingEnumerator;
            private int currentSize;

            public NextEnumerable(SplittingEnumerable<T> splitter, IEnumerator<T> backingEnumerator)
                this.splitter = splitter;
                this.backingEnumerator = backingEnumerator;

            public bool IsComplete { get; private set; }

            public IEnumerator<T> GetEnumerator()
                return new NextEnumerator(this.splitter, this, this.backingEnumerator);

            IEnumerator IEnumerable.GetEnumerator()
                return this.GetEnumerator();

            private class NextEnumerator : IEnumerator<T>
                private readonly SplittingEnumerable<T> splitter;
                private readonly NextEnumerable parent;
                private readonly IEnumerator<T> enumerator;
                private T currentItem;

                public NextEnumerator(SplittingEnumerable<T> splitter, NextEnumerable parent, IEnumerator<T> enumerator)
                    this.splitter = splitter;
                    this.parent = parent;
                    this.enumerator = enumerator;

                public bool MoveNext()
                    this.parent.currentSize += 1;
                    this.currentItem = this.splitter.lastItem;
                    var hasCcurent = this.splitter.hasCurrent;

                    this.parent.IsComplete = this.parent.currentSize > this.splitter.maxSize;

                    if (this.parent.IsComplete)
                        return false;

                    if (hasCcurent)
                        var result = this.enumerator.MoveNext();

                        this.splitter.lastItem = this.enumerator.Current;
                        this.splitter.hasCurrent = result;

                    return hasCcurent;

                public void Reset()
                    throw new System.NotImplementedException();

                public T Current
                    get { return this.currentItem; }

                object IEnumerator.Current
                    get { return this.Current; }

                public void Dispose()
Author: leat,
2017-12-02 23:10:34
    static IEnumerable<IEnumerable<T>> TakeBatch<T>(IEnumerable<T> ts,int batchSize)
        return from @group in ts.Select((x, i) => new { x, i }).ToLookup(xi => xi.i / batchSize)
               select @group.Select(xi => xi.x);
Author: nichom,
2015-07-02 16:33:10