Z HTML-a na XML

Przekształcenie strony zapisanej w HTML-u na poprawny dokument XML (XHTML) wymaga zachowania kilku reguł. Przede wszystkim musimy pamiętać o tym, że o ile przeglądarki WWW zazwyczaj tolerują formalnie niepoprawny kod HTML (jak choćby opisywany na początku tekstu przykład ze "skrzyżowanymi" znacznikami) i mimo to wyświetlają stronę, o tyle w specyfikacji XML-a jawnie wymaga się od programu przetwarzającego ten język, aby odrzucał każdy formalnie niepoprawny dokument. Dokumenty XML-a muszą zatem bezwzględnie być poprawne. Pierwszym krokiem dla przekształcenia dokumentu HTML w dokument XML jest zatem zapewnienie formalnej poprawności strony napisanej w HTML-u. Można to zrobić korzystając z programów takich jak np. CSE HTML Validator (http://htmlvalidator.com/), badających zgodność składni dokumentu z DTD dla wybranej wersji języka HTML i wykazujących wszystkie błędy, wraz z sugerowanymi sposobami ich poprawienia.

Uzyskany przy pomocy takiego programu formalnie poprawny dokument HTML jest jednak poprawny z punktu widzenia SGML-a, a nie XML-a; oryginalne DTD HTML-a wykorzystują kilka konstrukcji SGML-a, które nie są dopuszczalne w XML-u. Musimy więc zwrócić uwagę na następujące kwestie:

Nie należy też zapomnieć o usunięciu na koniec z dokumentu odwołania do odpowiedniej DTD, której dodanie było niezbędne dla uzyskania formalnie poprawnego dokumentu HTML - jak bowiem wspomniano uprzednio, definicje te zapisane są w języku SGML i nie "pasują" do XML-a.

Większość wymienionych powyżej czynności dostosowujących kod HTML do wymagań XML-a można też wykonać półautomatycznie, posługując się udostępnianym za darmo przez World Wide Web Consortium programem HTML Tidy, dostępnym pod adresem: http://www.w3.org/People/Raggett/tidy.