[mailinglist] Re: [Python-de] htmllib und Umlaute
Martin v. Löwis
martin at v.loewis.de
Sat Apr 26 10:27:57 EDT 2003
"Uwe Schmitt" <rocksportrocker at gmx.de> writes:
> Wie krieg ich jetzt eine Mail, die einmal einen Klartext-Part
> hat und das gleiche via HTML-Part konsistenz dekodiert ???
[...]
> Und das am besten unabhängig davon ob die Mail aus
> den USA oder China stammt ....
Du musst beim Verarbeiten der Email stets aufzeichnen, in welcher
Kodierung der Text versendet wird. Für MIME-Text-Parts steht das im
charset=-Feld, für HTML steht das entweder
a) im <?xml-Header,
b) im <META http-equiv-Header, oder
c) im MIME-Type (charset=)
Wenn Du mit dem htmllib-Dumbwriter HTML in Text umwandelst, bekommst
Du einen Byte-String, genauso, wie wenn Du Dir einen text/plain-Teil
betrachtest (nachdem evtl. ein Content-transfer-encoding aufgelöst
wurde).
Wenn Du also eine Byte-String-Version B des Texts hast sowie die
Kodierung K, dann kannst Du mittels
U = unicode(B, K)
die Unicode-Version des Texts ermitteln. Diese solltest Du zur Suche
nach Stichwörtern verwenden. Dann klappt es auch mit den asiatischen
Nachbarn.
Ciao,
Martin
More information about the Python-de
mailing list