Czy ktoś zna dobry robot internetowy oparty na Pythonie, którego mógłbym użyć?

Jestem w połowie kuszony, aby napisać swój własny, ale naprawdę nie mam teraz wystarczająco dużo czasu. Widziałem listę Wikipedystów open source crawlerów , ale wolałbym coś napisanego w Pythonie. Zdaję sobie sprawę, że prawdopodobnie mógłbym po prostu użyć jednego z narzędzi na stronie Wikipedii i owinąć go w Python. Może i tak skończę - jeśli ktoś ma jakieś rady na temat któregokolwiek z tych narzędzi, jestem otwarty na ich wysłuchanie. Użyłem Heritrix za pośrednictwem interfejsu internetowego i uznałem, że jest to dość uciążliwe. I na pewno nie będzie używać API przeglądarki dla mojego nadchodzącego projektu.

Z góry dzięki. Również, to jest moje pierwsze pytanie SO!

Author: Tobu, 2009-01-07

8 answers

  • Mechanize jest moim ulubionym; Wielkie możliwoÅ›ci przeglÄ…dania na wysokim poziomie (super proste wypeÅ‚nianie i skÅ‚adanie formularzy).
  • Twill jest prostym jÄ™zykiem skryptowym zbudowanym na Mechanize
  • BeautifulSoup + urllib2 również dziaÅ‚a caÅ‚kiem Å‚adnie.
  • Scrapy wyglÄ…da na niezwykle obiecujÄ…cy projekt; jest nowy.
Author: RexE,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2009-01-07 12:19:56

Użyj Scrappy .

Jest to skrętny Framework web crawler. Nadal w ciężkim rozwoju, ale to działa już. Ma wiele smakołyków:

    Wbudowane wsparcie dla parsowania HTML, XML, CSV i Javascript
  • rurociÄ…g mediów do skrobania elementów z obrazami (lub innymi multimediami) i pobierania plików graficznych
  • Wsparcie dla rozszerzenia Scrapy poprzez podÅ‚Ä…czenie wÅ‚asnej funkcjonalnoÅ›ci za pomocÄ… middlewares, rozszerzeÅ„ i potoków
  • szeroki zakres wbudowane narzÄ™dzia i rozszerzenia do obsÅ‚ugi kompresji, pamiÄ™ci podrÄ™cznej, plików cookie, uwierzytelniania, spoofingu user-agent, robotów.obsÅ‚uga txt, statystyki, ograniczenie gÅ‚Ä™bokoÅ›ci indeksowania itp
  • Interaktywna konsola scraping shell, bardzo przydatna do tworzenia i debugowania
  • Web management console do monitorowania i kontrolowania bota
  • konsola Telnet do niskopoziomowego dostÄ™pu do procesu Scrapowania

Przykładowy kod do wyodrębnienia informacji o wszystkich dodanych dziś plikach torrentowych na stronie torrentowej mininova , używając selektora XPath na zwracanym HTML:

class Torrent(ScrapedItem):

class MininovaSpider(CrawlSpider):
    domain_name = ''
    start_urls = ['']
    rules = [Rule(RegexLinkExtractor(allow=['/tor/\d+']), 'parse_torrent')]

    def parse_torrent(self, response):
        x = HtmlXPathSelector(response)
        torrent = Torrent()

        torrent.url = response.url = x.x("//h1/text()").extract()
        torrent.description = x.x("//div[@id='description']").extract()
        torrent.size = x.x("//div[@id='info-left']/p[2]/text()[2]").extract()
        return [torrent]
Author: nosklo,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2009-01-07 19:11:00

Sprawdź HarvestMan , wielowątkowy web-crawler napisany w Pythonie, również spójrz na moduł.

I tutaj{[2] } znajdziesz próbki kodu do zbudowania prostego Web-crawlera.

Author: CMS,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2009-01-07 05:11:40

Użyłem Ruya i znalazłem to całkiem dobre.

Author: kshahar,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2009-01-07 05:07:59

Zhakowałem powyższy skrypt, aby dołączyć stronę logowania, ponieważ potrzebowałem jej, aby uzyskać dostęp do witryny drupal. Nie ładnie, ale może komuś pomóc.


import httplib2
import urllib
import urllib2
from cookielib import CookieJar
import sys
import re
from HTMLParser import HTMLParser

class miniHTMLParser( HTMLParser ):

  viewedQueue = []
  instQueue = []
  headers = {}
  opener = ""

  def get_next_link( self ):
    if self.instQueue == []:
      return ''
      return self.instQueue.pop(0)

  def gethtmlfile( self, site, page ):
        url = 'http://'+site+''+page
        response =
    except Exception, err:
        print " Error retrieving: "+page
        sys.stderr.write('ERROR: %s\n' % str(err))
    return "" 

    return resppage

  def loginSite( self, site_url ):
    cj = CookieJar()
    self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

    url = 'http://'+site_url 
        params = {'name': 'customer_admin', 'pass': 'customer_admin123', 'opt': 'Log in', 'form_build_id': 'form-3560fb42948a06b01d063de48aa216ab', 'form_id':'user_login_block'}
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    self.headers = { 'User-Agent' : user_agent }

    data = urllib.urlencode(params)
    response =, data)
    print "Logged in"

    except Exception, err:
    print " Error logging in"
    sys.stderr.write('ERROR: %s\n' % str(err))

    return 1

  def handle_starttag( self, tag, attrs ):
    if tag == 'a':
      newstr = str(attrs[0][1])
      print newstr
      if'http', newstr) == None:
        if'mailto', newstr) == None:
          if'#', newstr) == None:
            if (newstr in self.viewedQueue) == False:
              print "  adding", newstr
              self.instQueue.append( newstr )
              self.viewedQueue.append( newstr )
            print "  ignoring", newstr
          print "  ignoring", newstr
        print "  ignoring", newstr

def main():

  if len(sys.argv)!=3:
    print "usage is ./ site link"

  mySpider = miniHTMLParser()

  site = sys.argv[1]
  link = sys.argv[2]

  url_login_link = site+"/node?destination=node"
  print "\nLogging in", url_login_link
  x = mySpider.loginSite( url_login_link )

  while link != '':

    print "\nChecking link ", link

    # Get the file from the site and link
    retfile = mySpider.gethtmlfile( site, link )

    # Feed the file into the HTML parser

    # Search the retfile here

    # Get the next link in level traversal order
    link = mySpider.get_next_link()


  print "\ndone\n"

if __name__ == "__main__":
Author: shim,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2010-11-11 10:04:04

Zaufaj mi, nic nie jest lepsze niż zwijanie.. . poniższy kod może indeksować równolegle 10 000 adresów URL w czasie krótszym niż 300 sekund na Amazon EC2

Uwaga: nie uderzaj w tę samą domenę z tak dużą prędkością.. .

#! /usr/bin/env python
# -*- coding: iso-8859-1 -*-
# vi:ts=4:et
# $Id:,v 1.29 2005/07/28 11:04:13 mfx Exp $

# Usage: python <file with URLs to fetch> [<# of
#          concurrent connections>]

import sys
import pycurl

# We should ignore SIGPIPE when using pycurl.NOSIGNAL - see
# the libcurl tutorial for more info.
    import signal
    from signal import SIGPIPE, SIG_IGN
    signal.signal(signal.SIGPIPE, signal.SIG_IGN)
except ImportError:

# Get args
num_conn = 10
    if sys.argv[1] == "-":
        urls = sys.stdin.readlines()
        urls = open(sys.argv[1]).readlines()
    if len(sys.argv) >= 3:
        num_conn = int(sys.argv[2])
    print "Usage: %s <file with URLs to fetch> [<# of concurrent connections>]" % sys.argv[0]
    raise SystemExit

# Make a queue with (url, filename) tuples
queue = []
for url in urls:
    url = url.strip()
    if not url or url[0] == "#":
    filename = "doc_%03d.dat" % (len(queue) + 1)
    queue.append((url, filename))

# Check args
assert queue, "no URLs given"
num_urls = len(queue)
num_conn = min(num_conn, num_urls)
assert 1 <= num_conn <= 10000, "invalid number of concurrent connections"
print "PycURL %s (compiled against 0x%x)" % (pycurl.version, pycurl.COMPILE_LIBCURL_VERSION_NUM)
print "----- Getting", num_urls, "URLs using", num_conn, "connections -----"

# Pre-allocate a list of curl objects
m = pycurl.CurlMulti()
m.handles = []
for i in range(num_conn):
    c = pycurl.Curl()
    c.fp = None
    c.setopt(pycurl.FOLLOWLOCATION, 1)
    c.setopt(pycurl.MAXREDIRS, 5)
    c.setopt(pycurl.CONNECTTIMEOUT, 30)
    c.setopt(pycurl.TIMEOUT, 300)
    c.setopt(pycurl.NOSIGNAL, 1)

# Main loop
freelist = m.handles[:]
num_processed = 0
while num_processed < num_urls:
    # If there is an url to process and a free curl object, add to multi stack
    while queue and freelist:
        url, filename = queue.pop(0)
        c = freelist.pop()
        c.fp = open(filename, "wb")
        c.setopt(pycurl.URL, url)
        c.setopt(pycurl.WRITEDATA, c.fp)
        # store some info
        c.filename = filename
        c.url = url
    # Run the internal curl state machine for the multi stack
    while 1:
        ret, num_handles = m.perform()
        if ret != pycurl.E_CALL_MULTI_PERFORM:
    # Check for curl objects which have terminated, and add them to the freelist
    while 1:
        num_q, ok_list, err_list = m.info_read()
        for c in ok_list:
            c.fp = None
            print "Success:", c.filename, c.url, c.getinfo(pycurl.EFFECTIVE_URL)
        for c, errno, errmsg in err_list:
            c.fp = None
            print "Failed: ", c.filename, c.url, errno, errmsg
        num_processed = num_processed + len(ok_list) + len(err_list)
        if num_q == 0:
    # Currently no more I/O is pending, could do something in the meantime
    # (display a progress bar, etc.).
    # We just call select() to sleep until some more data is available.

# Cleanup
for c in m.handles:
    if c.fp is not None:
        c.fp = None
Author: codersofthedark,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2011-11-29 12:32:03

Inny prosty pająk Używa BeautifulSoup i urllib2. Nic zbyt wyrafinowanego, po prostu czyta wszystkie href buduje listę i idzie do niej.

Author: rytis,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2009-12-15 10:47:30
Author: Lars Bauer Jørgensen,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2010-08-06 19:25:55