Valid content-typ dla dokumentów XML, HTML i XHTML

Jakie są prawidłowe typy treści dla dokumentów XML, HTML i XHTML?

Muszę napisać prosty crawler, który pobiera tylko tego rodzaju pliki.

Obecnie http://example.net/index.html {[6] } może służyć na przykład do pliku JPEG ze względu na mod_rewrite, więc muszę sprawdzić content-type z nagłówka odpowiedzi i porównać go z listą dozwolonych content-Type.

Skąd mam taką listę?

Author: Tomáš Zato, 2010-06-03

1 answers

HTML: text/html, full-stop.

XHTML: application/xhtml+xml, lub tylko wtedy, gdy postępujemy zgodnie z wytycznymi html, text/html. Zobacz W3 Uwaga o typach nośników .

XML: text/xml, application/xml (RFC 2376 ).

Istnieje również wiele innych typów nośników opartych na XML, na przykład application/rss+xml lub image/svg+xml. Jest to Bezpieczny zakład, że każda nierozpoznana, ale zarejestrowana końcówka +xml jest oparta na XML. Zobacz listę IANA dla zarejestrowanych typów nośników zakończonych +xml.

(dla niezarejestrowanych Typy, wszystkie zakłady są wyłączone, ale można mieć nadzieję, że zostaną uszanowane.)

 157
Author: bobince,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2010-06-03 12:01:40