Jak znaleźć duplikaty na liście i utworzyć z nimi kolejną listę?

Jak mogę znaleźć duplikaty na liście Pythona i utworzyć kolejną listę duplikatów? Lista zawiera tylko liczby całkowite.

Author: nbro, 2012-03-23

24 answers

Aby usunąć duplikaty użyj set(a), aby wydrukować duplikaty-coś w stylu

a = [1,2,3,2,1,5,6,5,5,5]

import collections
print [item for item, count in collections.Counter(a).items() if count > 1]

## [1, 2, 5]

Zauważ, że Counter nie jest szczególnie wydajny (timingi ) i prawdopodobnie przesada tutaj, set będzie działać lepiej. Kod ten oblicza listę unikalnych elementów w kolejności źródłowej:

seen = set()
uniq = []
for x in a:
    if x not in seen:

Lub, bardziej zwięźle:

seen = set()
uniq = [x for x in a if x not in seen and not seen.add(x)]    

Nie polecam tego drugiego stylu, ponieważ nie jest oczywiste, co robi not seen.add(x) (metoda set add() zawsze zwraca None, stąd potrzeba not).

Aby obliczyć listę zduplikowanych elementów bez bibliotek,

seen = {}
dupes = []

for x in a:
    if x not in seen:
        seen[x] = 1
        if seen[x] == 1:
        seen[x] += 1

Jeśli elementy listy nie są hashable, nie można użyć set/dicts i trzeba uciekać się do rozwiązania czasu kwadratowego( porównaj każdy, który każdy), na przykład:

a = [ [1], [2], [3], [1], [5], [3] ]

no_dupes = [x for n, x in enumerate(a) if x not in a[:n]]
print no_dupes # [[1], [2], [3], [5]]

dupes = [x for n, x in enumerate(a) if x in a[:n]]
print dupes # [[1], [3]]
Author: georg,
2018-03-12 14:37:56
>>> l = [1,2,3,4,4,5,5,6,1]
>>> set([x for x in l if l.count(x) > 1])
set([1, 4, 5])
Author: Ritesh Kumar,
2013-03-01 10:19:20

Nie potrzebujesz licznika, tylko tego, czy przedmiot był widziany wcześniej. Dostosowano tę odpowiedź do tego problemu:

def list_duplicates(seq):
  seen = set()
  seen_add = seen.add
  # adds all elements it doesn't know yet to seen and all other to seen_twice
  seen_twice = set( x for x in seq if x in seen or seen_add(x) )
  # turn the set into a list (as requested)
  return list( seen_twice )

a = [1,2,3,2,1,5,6,5,5,5]
list_duplicates(a) # yields [1, 2, 5]

Na wszelki wypadek prędkość ma znaczenie, oto kilka timingów:

# file: test.py
import collections

def thg435(l):
    return [x for x, y in collections.Counter(l).items() if y > 1]

def moooeeeep(l):
    seen = set()
    seen_add = seen.add
    # adds all elements it doesn't know yet to seen and all other to seen_twice
    seen_twice = set( x for x in l if x in seen or seen_add(x) )
    # turn the set into a list (as requested)
    return list( seen_twice )

def RiteshKumar(l):
    return list(set([x for x in l if l.count(x) > 1]))

def JohnLaRooy(L):
    seen = set()
    seen2 = set()
    seen_add = seen.add
    seen2_add = seen2.add
    for item in L:
        if item in seen:
    return list(seen2)

l = [1,2,3,2,1,5,6,5,5,5]*100

Oto wyniki: (well done @ JohnLaRooy!)

$ python -mtimeit -s 'import test' 'test.JohnLaRooy(test.l)'
10000 loops, best of 3: 74.6 usec per loop
$ python -mtimeit -s 'import test' 'test.moooeeeep(test.l)'
10000 loops, best of 3: 91.3 usec per loop
$ python -mtimeit -s 'import test' 'test.thg435(test.l)'
1000 loops, best of 3: 266 usec per loop
$ python -mtimeit -s 'import test' 'test.RiteshKumar(test.l)'
100 loops, best of 3: 8.35 msec per loop

Co ciekawe, oprócz samych timingów, również ranking nieznacznie się zmienia, gdy używa się pypy. Co najciekawsze, podejście oparte na liczniku korzysta ogromnie z optymalizacji pypy, podczas gdy metoda buforowania podejście, które zaproponowałem wydaje się nie mieć prawie żadnego efektu.

$ pypy -mtimeit -s 'import test' 'test.JohnLaRooy(test.l)'
100000 loops, best of 3: 17.8 usec per loop
$ pypy -mtimeit -s 'import test' 'test.thg435(test.l)'
10000 loops, best of 3: 23 usec per loop
$ pypy -mtimeit -s 'import test' 'test.moooeeeep(test.l)'
10000 loops, best of 3: 39.3 usec per loop

Efekt ten jest związany z "duplikacją" danych wejściowych. Mam ustawione l = [random.randrange(1000000) for i in xrange(10000)] i mam te wyniki:

$ pypy -mtimeit -s 'import test' 'test.moooeeeep(test.l)'
1000 loops, best of 3: 495 usec per loop
$ pypy -mtimeit -s 'import test' 'test.JohnLaRooy(test.l)'
1000 loops, best of 3: 499 usec per loop
$ pypy -mtimeit -s 'import test' 'test.thg435(test.l)'
1000 loops, best of 3: 1.68 msec per loop
Author: moooeeeep,
2017-05-23 12:26:34

Natknąłem się na to pytanie, szukając czegoś związanego - i zastanawiam się, dlaczego nikt nie zaproponował rozwiązania opartego na generatorze? Rozwiązanie tego problemu to:

>>> print list(getDupes_9([1,2,3,2,1,5,6,5,5,5]))
[1, 2, 5]

Zajmowałem się skalowalnością, więc przetestowałem kilka podejść, w tym naiwne elementy, które dobrze działają na małych listach, ale skalują się strasznie, gdy listy stają się większe (Uwaga - lepiej byłoby użyć timeit, ale to jest ilustracyjne).

Dodałem @moooeeeep dla porównania (jest imponująco szybki: najszybszy jeśli lista wejściowa jest całkowicie losowa) i podejście itertools, które jest jeszcze szybsze Dla głównie posortowanych list... Teraz zawiera podejście pandy z @ firelynx-powolne, ale nie strasznie, i proste. Uwaga-podejście sort / tee / zip jest konsekwentnie najszybsze na moim komputerze dla dużych list najczęściej zamówionych, moooeeeep jest najszybsze dla list tasowanych, ale twój przebieg może się różnić.


  • bardzo szybki prosty do przetestowania dla "dowolnych" duplikatów przy użyciu tego samego kod


  • duplikaty należy zgłaszać tylko raz
  • duplikat zamówienia nie musi być zachowany
  • duplikat może być gdziekolwiek na liście

Najszybsze rozwiązanie, 1m wpisów:

def getDupes(c):
        a, b = itertools.tee(sorted(c))
        next(b, None)
        r = None
        for k, g in itertools.izip(a, b):
            if k != g: continue
            if k != r:
                yield k
                r = k

Metody testowane

import itertools
import time
import random

def getDupes_1(c):
    for i in xrange(0, len(c)):
        if c[i] in c[:i]:
            yield c[i]

def getDupes_2(c):
    '''set len change'''
    s = set()
    for i in c:
        l = len(s)
        if len(s) == l:
            yield i

def getDupes_3(c):
    '''in dict'''
    d = {}
    for i in c:
        if i in d:
            if d[i]:
                yield i
                d[i] = False
            d[i] = True

def getDupes_4(c):
    '''in set'''
    s,r = set(),set()
    for i in c:
        if i not in s:
        elif i not in r:
            yield i

def getDupes_5(c):
    c = sorted(c)
    r = None
    for i in xrange(1, len(c)):
        if c[i] == c[i - 1]:
            if c[i] != r:
                yield c[i]
                r = c[i]

def getDupes_6(c):
    def multiple(x):
            return True
            return False
    for k, g in itertools.ifilter(lambda x: multiple(x[1]), itertools.groupby(sorted(c))):
        yield k

def getDupes_7(c):
    c = sorted(c)
    r = None
    for k, g in zip(c[:-1],c[1:]):
        if k == g:
            if k != r:
                yield k
                r = k

def getDupes_8(c):
    c = sorted(c)
    r = None
    for k, g in itertools.izip(c[:-1],c[1:]):
        if k == g:
            if k != r:
                yield k
                r = k

def getDupes_9(c):
    a, b = itertools.tee(sorted(c))
    next(b, None)
    r = None
    for k, g in itertools.izip(a, b):
        if k != g: continue
        if k != r:
            yield k
            r = k

def getDupes_a(l):
    seen = set()
    seen_add = seen.add
    # adds all elements it doesn't know yet to seen and all other to seen_twice
    for x in l:
        if x in seen or seen_add(x):
            yield x

def getDupes_b(x):
    x = sorted(x)
    def _matches():
        for k,g in itertools.izip(x[:-1],x[1:]):
            if k == g:
                yield k
    for k, n in itertools.groupby(_matches()):
        yield k

def getDupes_c(a):
    import pandas as pd
    vc = pd.Series(a).value_counts()
    i = vc[vc > 1].index
    for _ in i:
        yield _

def hasDupes(fn,c):
        if fn(c).next(): return True    # Found a dupe
    except StopIteration:
    return False

def getDupes(fn,c):
    return list(fn(c))

    print 'Finding FIRST then ALL duplicates, single dupe of "nth" placed element in 1m element array'
    print 'Finding FIRST then ALL duplicates, single dupe of "n" included in randomised 1m element array'
for location in (50,250000,500000,750000,999999):
    for test in (getDupes_2, getDupes_3, getDupes_4, getDupes_5, getDupes_6,
                 getDupes_8, getDupes_9, getDupes_a, getDupes_b, getDupes_c):
        print 'Test %-15s:%10d - '%(test.__doc__ or test.__name__,location),
        deltas = []
        for FIRST in (True,False):
            for i in xrange(0, 5):
                c = range(0,1000000)
                if STABLE:
                    c[0] = location
                start = time.time()
                if FIRST:
                    print '.' if location == test(c).next() else '!',
                    print '.' if [location] == list(test(c)) else '!',
            print ' -- %0.3f  '%(sum(deltas)/len(deltas)),

Wyniki testu "wszystkie duplikaty" były spójne, znajdując" pierwszy "duplikat, a następnie "wszystkie" duplikaty w tej tablicy:

Finding FIRST then ALL duplicates, single dupe of "nth" placed element in 1m element array
Test set len change :    500000 -  . . . . .  -- 0.264   . . . . .  -- 0.402  
Test in dict        :    500000 -  . . . . .  -- 0.163   . . . . .  -- 0.250  
Test in set         :    500000 -  . . . . .  -- 0.163   . . . . .  -- 0.249  
Test sort/adjacent  :    500000 -  . . . . .  -- 0.159   . . . . .  -- 0.229  
Test sort/groupby   :    500000 -  . . . . .  -- 0.860   . . . . .  -- 1.286  
Test sort/izip      :    500000 -  . . . . .  -- 0.165   . . . . .  -- 0.229  
Test sort/tee/izip  :    500000 -  . . . . .  -- 0.145   . . . . .  -- 0.206  *
Test moooeeeep      :    500000 -  . . . . .  -- 0.149   . . . . .  -- 0.232  
Test iter*/sorted   :    500000 -  . . . . .  -- 0.160   . . . . .  -- 0.221  
Test pandas         :    500000 -  . . . . .  -- 0.493   . . . . .  -- 0.499  

Gdy listy są po pierwsze, cena tego rodzaju staje się widoczna - wydajność spada zauważalnie i dominuje podejście @moooeeeep, przy czym podejścia set & dict są podobne, ale leasingowe: {]}

Finding FIRST then ALL duplicates, single dupe of "n" included in randomised 1m element array
Test set len change :    500000 -  . . . . .  -- 0.321   . . . . .  -- 0.473  
Test in dict        :    500000 -  . . . . .  -- 0.285   . . . . .  -- 0.360  
Test in set         :    500000 -  . . . . .  -- 0.309   . . . . .  -- 0.365  
Test sort/adjacent  :    500000 -  . . . . .  -- 0.756   . . . . .  -- 0.823  
Test sort/groupby   :    500000 -  . . . . .  -- 1.459   . . . . .  -- 1.896  
Test sort/izip      :    500000 -  . . . . .  -- 0.786   . . . . .  -- 0.845  
Test sort/tee/izip  :    500000 -  . . . . .  -- 0.743   . . . . .  -- 0.804  
Test moooeeeep      :    500000 -  . . . . .  -- 0.234   . . . . .  -- 0.311  *
Test iter*/sorted   :    500000 -  . . . . .  -- 0.776   . . . . .  -- 0.840  
Test pandas         :    500000 -  . . . . .  -- 0.539   . . . . .  -- 0.540  
Author: F1Rumors,
2015-12-29 22:40:51

Kolekcje.Licznik jest nowy w Pythonie 2.7:

Python 2.5.4 (r254:67916, May 31 2010, 15:03:39) 
[GCC 4.1.2 20080704 (Red Hat 4.1.2-46)] on linux2
a = [1,2,3,2,1,5,6,5,5,5]
import collections
print [x for x, y in collections.Counter(a).items() if y > 1]
Type "help", "copyright", "credits" or "license" for more information.
  File "", line 1, in 
AttributeError: 'module' object has no attribute 'Counter'

We wcześniejszej wersji możesz użyć zamiast tego konwencjonalnego dict:

a = [1,2,3,2,1,5,6,5,5,5]
d = {}
for elem in a:
    if elem in d:
        d[elem] += 1
        d[elem] = 1

print [x for x, y in d.items() if y > 1]
Author: Edward,
2012-03-23 09:29:34

Możesz użyć iteration_utilities.duplicates:

>>> from iteration_utilities import duplicates

>>> list(duplicates([1,1,2,1,2,3,4,2]))
[1, 1, 2, 2]

Lub jeśli chcesz tylko jeden z każdego duplikatu, można go połączyć z iteration_utilities.unique_everseen:

>>> from iteration_utilities import unique_everseen

>>> list(unique_everseen(duplicates([1,1,2,1,2,3,4,2])))
[1, 2]
Może również obsługiwać elementy nieszablonowe (jednak kosztem wydajności):]}
>>> list(duplicates([[1], [2], [1], [3], [1]]))
[[1], [1]]

>>> list(unique_everseen(duplicates([[1], [2], [1], [3], [1]])))

To jest coś, co tylko kilka innych podejść tutaj może obsłużyć.


Zrobiłem szybki benchmark zawierający większość (ale nie wszystkie) z wymienionych tutaj podejść.

Pierwszy benchmark zawiera tylko niewielki zakres długości list, ponieważ niektóre podejścia mają O(n**2) zachowanie.

Na wykresach oś y reprezentuje czas, więc niższa wartość oznacza lepiej. Jest to również wykreślony log-log, dzięki czemu szeroki zakres wartości może być lepiej wizualizowany:

Tutaj wpisz opis obrazka

Usuwanie O(n**2) podejścia zrobiłem kolejny benchmark do pół miliona elementów na liście:

Tutaj wpisz opis obrazka

Jak widać podejście iteration_utilities.duplicates jest szybsze niż jakiekolwiek z innych podejść, a nawet łańcuchowanie unique_everseen(duplicates(...)) było szybsze lub równie szybkie niż inne podejścia.

Dodatkową ciekawostką jest to, że podejścia pand są bardzo powolne dla małych list, ale mogą łatwo konkurować o dłuższe listy.

Jednakże, ponieważ te benchmarki pokazują, że większość podejść działa mniej więcej tak samo, więc nie ma większego znaczenia, który z nich jest używany (z wyjątkiem 3, które miały O(n**2) runtime).

from iteration_utilities import duplicates, unique_everseen
from collections import Counter
import pandas as pd
import itertools

def georg_counter(it):
    return [item for item, count in Counter(it).items() if count > 1]

def georg_set(it):
    seen = set()
    uniq = []
    for x in it:
        if x not in seen:

def georg_set2(it):
    seen = set()
    return [x for x in it if x not in seen and not seen.add(x)]   

def georg_set3(it):
    seen = {}
    dupes = []

    for x in it:
        if x not in seen:
            seen[x] = 1
            if seen[x] == 1:
            seen[x] += 1

def RiteshKumar_count(l):
    return set([x for x in l if l.count(x) > 1])

def moooeeeep(seq):
    seen = set()
    seen_add = seen.add
    # adds all elements it doesn't know yet to seen and all other to seen_twice
    seen_twice = set( x for x in seq if x in seen or seen_add(x) )
    # turn the set into a list (as requested)
    return list( seen_twice )

def F1Rumors_implementation(c):
    a, b = itertools.tee(sorted(c))
    next(b, None)
    r = None
    for k, g in zip(a, b):
        if k != g: continue
        if k != r:
            yield k
            r = k

def F1Rumors(c):
    return list(F1Rumors_implementation(c))

def Edward(a):
    d = {}
    for elem in a:
        if elem in d:
            d[elem] += 1
            d[elem] = 1
    return [x for x, y in d.items() if y > 1]

def wordsmith(a):
    return pd.Series(a)[pd.Series(a).duplicated()].values

def NikhilPrabhu(li):
    li = li.copy()
    for x in set(li):

    return list(set(li))

def firelynx(a):
    vc = pd.Series(a).value_counts()
    return vc[vc > 1].index.tolist()

def HenryDev(myList):
    newList = set()

    for i in myList:
        if myList.count(i) >= 2:

    return list(newList)

def yota(number_lst):
    seen_set = set()
    duplicate_set = set(x for x in number_lst if x in seen_set or seen_set.add(x))
    return seen_set - duplicate_set

def IgorVishnevskiy(l):
    for x in l:
        if x in s:
    return d

def it_duplicates(l):
    return list(duplicates(l))

def it_unique_duplicates(l):
    return list(unique_everseen(duplicates(l)))

Benchmark 1

from simple_benchmark import benchmark
import random

funcs = [
    georg_counter, georg_set, georg_set2, georg_set3, RiteshKumar_count, moooeeeep, 
    F1Rumors, Edward, wordsmith, NikhilPrabhu, firelynx,
    HenryDev, yota, IgorVishnevskiy, it_duplicates, it_unique_duplicates

args = {2**i: [random.randint(0, 2**(i-1)) for _ in range(2**i)] for i in range(2, 12)}

b = benchmark(funcs, args, 'list size')


Benchmark 2

funcs = [
    georg_counter, georg_set, georg_set2, georg_set3, moooeeeep, 
    F1Rumors, Edward, wordsmith, firelynx,
    yota, IgorVishnevskiy, it_duplicates, it_unique_duplicates

args = {2**i: [random.randint(0, 2**(i-1)) for _ in range(2**i)] for i in range(2, 20)}

b = benchmark(funcs, args, 'list size')


1 to jest z biblioteki innej firmy, którą napisałem: iteration_utilities.

Author: MSeifert,
2018-07-04 18:12:08

Używanie pand:

>>> import pandas as pd
>>> a = [1, 2, 1, 3, 3, 3, 0]
>>> pd.Series(a)[pd.Series(a).duplicated()].values
array([1, 3, 3])
Author: wordsmith,
2016-10-08 11:10:45

Oto zgrabne i zwięzłe rozwiązanie -

for x in set(li):

li = list(set(li))
Author: Nikhil Prabhu,
2016-07-15 17:29:47

Zrobiłbym to z pand, ponieważ często używam pand

import pandas as pd
a = [1,2,3,3,3,4,5,6,6,7]
vc = pd.Series(a).value_counts()
vc[vc > 1].index.tolist()



Prawdopodobnie nie jest zbyt wydajny, ale na pewno jest mniej kodowy niż wiele innych odpowiedzi, więc pomyślałem, że pomogę

Author: firelynx,
2015-12-09 09:52:43

Trochę za późno, ale może dla niektórych pomocne. Dla dużej listy, znalazłem to działa dla mnie.

for x in l:
    if x in s:

Pokazuje tylko i wszystkie duplikaty i zachowuje porządek.

Author: user3109122,
2015-05-27 04:09:56

Trzeci przykład zaakceptowanej odpowiedzi daje błędną odpowiedź i nie próbuje dawać duplikatów. Oto poprawna wersja:

number_lst = [1, 1, 2, 3, 5, ...]

seen_set = set()
duplicate_set = set(x for x in number_lst if x in seen_set or seen_set.add(x))
unique_set = seen_set - duplicate_set
Author: yota,
2016-02-28 17:51:06

Może po prostu przejrzyj każdy element listy, sprawdzając liczbę wystąpień, a następnie dodaj je do zestawu, który następnie wydrukuje duplikaty. Mam nadzieję, że to komuś pomoże.

myList  = [2 ,4 , 6, 8, 4, 6, 12];
newList = set()

for i in myList:
    if myList.count(i) >= 2:

## [4 , 6]
Author: HenryDev,
2017-05-21 16:40:54

Bardzo prosty i szybki sposób znajdowania dupków za pomocą jednej iteracji w Pythonie to:

testList = ['red', 'blue', 'red', 'green', 'blue', 'blue']

testListDict = {}

for item in testList:
    testListDict[item] += 1
    testListDict[item] = 1

print testListDict

Wynik będzie następujący:

>>> print testListDict
{'blue': 3, 'green': 1, 'red': 2}

To i więcej na moim blogu http://www.howtoprogramwithpython.com

Author: Igor Vishnevskiy,
2016-06-21 02:32:19

Możemy użyć itertools.groupby aby znaleźć wszystkie przedmioty, które mają dups:

from itertools import groupby

myList  = [2, 4, 6, 8, 4, 6, 12]
# when the list is sorted, groupby groups by consecutive elements which are similar
for x, y in groupby(sorted(myList)):
    #  list(y) returns all the occurences of item x
    if len(list(y)) > 1:
        print x  

Wyjście będzie:

Author: alfasin,
2017-07-21 16:42:35
list2 = [1, 2, 3, 4, 1, 2, 3]
lset = set()
[(lset.add(item), list2.append(item))
 for item in list2 if item not in lset]
print list(lset)
Author: Haresh Shyara,
2015-02-11 12:28:05

Rozwiązanie jednej linii:

set([i for i in list if sum([1 for a in list if a == i]) > 1])
Author: ytpillai,
2015-07-11 17:10:23

Jest tu wiele odpowiedzi, ale myślę, że jest to stosunkowo bardzo czytelne i łatwe do zrozumienia podejście:

def get_duplicates(sorted_list):
    duplicates = []
    last = sorted_list[0]
    for x in sorted_list[1:]:
        if x == last:
        last = x
    return set(duplicates)


  • Jeśli chcesz zachować liczbę duplikacji, pozbądź się gipsu aby "ustawić" na dole, aby uzyskać pełną listę
  • jeśli wolisz używać generatorów, zastąp duplikaty.append (x) z yield x i instrukcją return na dole (możesz rzucić, aby ustawić później)
Author: tvt173,
2016-03-10 22:12:12

Oto szybki generator, który używa dict do przechowywania każdego elementu jako klucza z wartością logiczną w celu sprawdzenia, czy duplikat elementu został już uzyskany.

Dla list ze wszystkimi elementami, które są typami hashowalnymi:

def gen_dupes(array):
    unique = {}
    for value in array:
        if value in unique and unique[value]:
            unique[value] = False
            yield value
            unique[value] = True

array = [1, 2, 2, 3, 4, 1, 5, 2, 6, 6]
# => [2, 1, 6]

Dla list, które mogą zawierać listy:

def gen_dupes(array):
    unique = {}
    for value in array:
        is_list = False
        if type(value) is list:
            value = tuple(value)
            is_list = True

        if value in unique and unique[value]:
            unique[value] = False
            if is_list:
                value = list(value)

            yield value
            unique[value] = True

array = [1, 2, 2, [1, 2], 3, 4, [1, 2], 5, 2, 6, 6]
# => [2, [1, 2], 6]
Author: John B,
2017-02-12 03:52:55
def removeduplicates(a):
  seen = set()

  for i in a:
    if i not in seen:
  return seen 

2017-09-24 10:37:56

Kilka innych testów. Oczywiście...

set([x for x in l if l.count(x) > 1])
... Jest zbyt kosztowne. Jest to około 500 razy szybsze (im dłuższa tablica daje lepsze wyniki), aby użyć następnej ostatecznej metody: {]}
def dups_count_dict(l):
    d = {}

    for item in l:
        if item not in d:
            d[item] = 0

        d[item] += 1

    result_d = {key: val for key, val in d.iteritems() if val > 1}

    return result_d.keys()

Tylko 2 pętle, bez bardzo kosztownych operacji l.count().

Oto kod do porównania metod na przykład. Kod jest poniżej, Oto wyjście:

dups_count: 13.368s # this is a function which uses l.count()
dups_count_dict: 0.014s # this is a final best function (of the 3 functions)
dups_count_counter: 0.024s # collections.Counter

Kod testowy:

import numpy as np
from time import time
from collections import Counter

class TimerCounter(object):
    def __init__(self):
        self._time_sum = 0

    def start(self):
        self.time = time()

    def stop(self):
        self._time_sum += time() - self.time

    def get_time_sum(self):
        return self._time_sum

def dups_count(l):
    return set([x for x in l if l.count(x) > 1])

def dups_count_dict(l):
    d = {}

    for item in l:
        if item not in d:
            d[item] = 0

        d[item] += 1

    result_d = {key: val for key, val in d.iteritems() if val > 1}

    return result_d.keys()

def dups_counter(l):
    counter = Counter(l)    

    result_d = {key: val for key, val in counter.iteritems() if val > 1}

    return result_d.keys()

def gen_array():
    return list(np.random.randint(0, 5000, 10000))

def assert_equal_results(*results):
    primary_result = results[0]
    other_results = results[1:]

    for other_result in other_results:
        assert set(primary_result) == set(other_result) and len(primary_result) == len(other_result)

if __name__ == '__main__':
    dups_count_time = TimerCounter()
    dups_count_dict_time = TimerCounter()
    dups_count_counter = TimerCounter()

    l = gen_array()

    for i in range(3):
        result1 = dups_count(l)

        result2 = dups_count_dict(l)

        result3 = dups_counter(l)

        assert_equal_results(result1, result2, result3)

    print 'dups_count: %.3f' % dups_count_time.get_time_sum()
    print 'dups_count_dict: %.3f' % dups_count_dict_time.get_time_sum()
    print 'dups_count_counter: %.3f' % dups_count_counter.get_time_sum()
Author: sergzach,
2018-06-20 16:43:43

Bez konwersji do listy i prawdopodobnie najprostszym sposobem byłoby coś takiego jak poniżej. może się to przydać podczas rozmowy kwalifikacyjnej, gdy poproszą o nieużywanie zestawów

for each in a:
  if each not in dup:
Author: Chetan Vasudevan,
2018-09-18 10:39:22

W ten sposób musiałem to zrobić, ponieważ wyzwałem się, aby nie używać innych metod:

def dupList(oldlist):
    if type(oldlist)==type((2,2)):
        oldlist=[x for x in oldlist]
    for i in range(len(oldlist)):
        #print 'start i', i
        if i in forbidden:
            for j in range(len(oldlist)):
                #print 'start j', j
                if j in forbidden:
                    #print 'after Else'
                    if i!=j: 
                        #print 'i,j', i,j
                        #print oldlist
                        #print newList
                        if oldlist[j]==oldlist[i]:
                            #print 'oldlist[i],oldlist[j]', oldlist[i],oldlist[j]
                            #print 'forbidden', forbidden
                            del newList[j-checkPoint]
                            #print newList
    return newList

Więc twoja próbka działa jako:

>>>a = [1,2,3,3,3,4,5,6,6,7]
[1, 2, 3, 4, 5, 6, 7]
Author: Matt S,
2016-02-05 14:36:35

Przy użyciu toolz :

from toolz import frequencies, valfilter

a = [1,2,2,3,4,5,4]
>>> list(valfilter(lambda count: count > 1, frequencies(a)).keys())
Author: Andreas Profous,
2018-07-25 14:19:12

Użyj funkcji sort(). Duplikaty można zidentyfikować przez zapętlenie i sprawdzenie l1[i] == l1[i+1].

Author: user5909101,
2017-01-03 20:54:09