====== Rozwiązania dot. dokumentów tekstowych w HTML (XHTML itp.) ======
===== Dzielenie i łączenie wielkich plików na mniejsze wg nagłówków =====
[[http://txt2tags.wordpress.com/2006/08/31/split-html-in-multiple-pages/| strona z opisem sposobu]]\\
Używa się do tego programu [[https://www.msweet.org/projects.php?Z1|HTMLDOC]]
$> mkdir output-folder
$> htmldoc -t htmlsep --charset utf-8 -o output-folder file.html
Ta komenda wyszuka w pliku //file.html// wszystkie znaczniki nagłówków (//
$> htmldoc -t htmlsep -d output-folder \\
--no-title --toclevels 2 --toctitle "Spis treści" \\
file.html
=== UMGAGA!!! Zapewnienie obsługi UTF-8 w htmldoc ===
ALE!!! Pełne wsparcie dla UTF-8 będzie dostępne od wersji 1.9, a na razie jest wersja 1.8.x.
Zatem przedtem należy odpalić [[http://txt2tags.wordpress.com/2008/06/27/python-script-to-use-htmldoc-with-utf-8-files/|skrypt, jak podano na tej stronie]].
Przetworzony plik/pliki można poddać procedurze na 3 sposoby:
$> cat myfile.html | fix-htmldoc-utf8 > myfile-ok.html
abo
$> fix-htmldoc-utf8 myfile.html > myfile-ok.html
abo
$> fix-htmldoc-utf8 -w myfile.html
Czyli najlepiej jest zrobić to tak:
$> for i in `ls output-folder`; do \\
fix-htmldoc-utf8 -w output-folder/$i && echo "$i naprawione!"; \\
done