RSS dla kategorii ankiety

Mam aplikację, która bada kilka źródeł rss w sieci.

Jaka jest etykieta przy wyszukiwaniu innych serwerów WWW. Jak często ankiety itp.?

Jakie są najlepsze praktyki?

Author: Dan Lowe, 2009-06-02

8 answers

  1. Użyj pamięci podręcznej HTTP. Wysyłanie nagłówków Etag i LastModified. Rozpoznaj odpowiedź 304 Not modified. W ten sposób można zaoszczędzić dużo przepustowości. Dodatkowo niektóre skrypty rozpoznają nagłówek LastModified i zwracają tylko częściową zawartość (np. tylko dwa lub trzy najnowsze pozycje zamiast wszystkich 30 lub tak).

  2. Nie sprawdzaj RSS z serwisów obsługujących RPC Ping (lub innych serwisów PUSH, takich jak PubSubHubbub). Tj. jeśli otrzymujesz powiadomienia PUSH od usługi, nie musisz przeszukiwać danych w standardowym przedziale-rób to raz dziennie, aby sprawdzić, czy mechanizm nadal działa, czy nie (ping może być wyłączony, rekonfigurowany, uszkodzony, itp.). W ten sposób możesz pobrać RSS tylko po otrzymaniu powiadomienia, nie co godzinę.

  3. Sprawdź nagłówki sterujące TTL (w RSS) lub Cache (Expires w atomie) i nie pobieraj dopóki zasób nie wygaśnie.

  4. Spróbuj dostosować się do częstotliwości nowych pozycji w każdym pojedynczym kanale RSS. Gdyby w minionym tygodniu były tylko dwie aktualizacje w szczególności feeda, nie pobieraj go więcej niż raz dziennie. Afair Google Reader tak robi.

  5. Obniż stawkę w godzinach nocnych lub w innym czasie, gdy ruch na twojej stronie jest niski.

  6. W końcu zrób to raz na godzinę. ;)

 37
Author: Maciej Łebkowski,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2015-04-16 11:21:57

FeedFetcher Google twierdzi, że sonduje kanał rss nieco rzadziej niż raz na godzinę.

From: http://code.google.com/apis/ajaxfeeds/documentation/

Feed Crawl Frequency

Ponieważ Google AJAX Feed API używa Feedfetcher, dane feed z AJAX Feed API mogą nie zawsze być aktualne. Google feed crawler ("Feedfetcher") pobiera kanały z większości witryn mniej niż raz na godzinę. Niektóre często aktualizowane witryny mogą być odświeżane więcej często.

 5
Author: Jonathan Fingland,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-06-02 13:46:53

Cóż, pójdę tam, ignorując posty, które mówią "Google mówi, my robimy", i powiedzieć: tak często, jak realistycznie trzeba.

RSS jest po to, aby być na bieżąco. Jeśli kanał publikuje 10 pozycji na godzinę, ale pokazuje tylko pięć, przegapisz pięć z tych pozycji, a kanał nie spełnia swojego celu. Równie dobrze możesz w ogóle nie trafić.

Oczywiście, nie można młotkować serwera żądaniami, ale jeśli publikują wystarczająco dużo, aby prosić raz na minutę, nie widzę jak nierozsądne jest dopasowanie tej stawki.

 3
Author: Oli,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-06-02 13:52:43

Raz na godzinę , jeśli chcesz po prostu przejść przez zasady (ale link wyjaśnia kilka lepszych opcji).

 2
Author: Bill the Lizard,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-06-02 14:22:26

Raz na godzinę to częstotliwość, którą słyszałem.

 1
Author: cgp,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-06-02 13:46:44

Rss ma w sobie ustawienie ttl, więc tak naprawdę powinieneś sondować tylko wtedy, gdy TTL wygaśnie.

Ale myślę, że jeśli nie umieścić jeden w swoim problemie i należy ankieta coś jak raz na godzinę

 0
Author: Sruly,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2009-06-02 13:52:00

To nie jest pełna odpowiedź, ale poszukaj alertów push.

Blog RSS wskazuje, że najlepszą praktyką jest pytanie weblogs.com o zmienionych blogach.

Jest też jakiś, er, hubbub, o pubsub , sposobie subskrybowania alertów push, który ma pewien rozmach.

 0
Author: dfrankow,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-01-07 14:49:22

Zauważam, że twitter używa (niestandardowych) nagłówków X-RateLimit-Remaining i X-RateLimit-Limit (w odpowiedzi HTTP), aby wskazać maksymalną liczbę autoryzowanych ankiet dla kanałów Atom. Szkoda, że nie użyli standardowego pola Expires (które zostało ustawione 30 lat temu :P) myślę, że ich reklama Cache-Control: no-cache wyklucza również ogólny heursytyczny czas ważności zdefiniowany w RFC 2616 (sekcja 13.2.*). Tym bardziej szkoda, że Atom nie daje żadnego znormalizowanego sposobu na stwierdzenie, jak często sugeruje się, aby sprawdź kanał.

 0
Author: PypeBros,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2011-03-22 13:00:02