[Python-de] Pyton und pdf
Christian Tismer
tismer at stackless.com
Fre Jan 23 22:57:22 CET 2004
Dinu Gherman wrote:
> Albert Hermeling:
>
>> Hallo Liste,
>>
>> ich suche jetzt schon eine ganze Weile nach einer Funktion oder
>> Methode die
>> PDF Dateien lesen kann und denn darin enthaltenden Text als String
>> ausgib. So
>> das man den Text weiterverarbeiten kann.
>>
>> Kennt jemand so eine Python Funktion?
>
>
> Nein und gibt es wahrscheinlich auch nicht, ausser ueber Umwege
> wie pdf2text oder wie diese Werkzeuge alle heissen... Das Thema
> ist komplexer als es scheint, da man im unguenstigsten Fall die
> enthaltenen Textteile erst selbst als zusammengehoerend identi-
> fizieren muss. D.h. die erwaehnten Werkzeuge sind in der Regel
> auch alles andere als perfekt...
Ganz recht.
Ich habe mal was ähnliches gebraucht und angefangen,
selber einen Postscript-interpreter in Python zu schreiben.
Der sollte auch das Problem der Zusammengehörigkeit von Text
einigermaßen lösen, und Einrückungen erhalten etc.
Der Sinn war eine direkte Konvertierung von Postscript zu
Wiki-Seiten.
Leider ist das Projekt nie über das Hack-Stadium hinaus gekommen
und funktioniert nur mit einem speziellen Postscript-Treiber.
Leider habe ich keine Zeit, daran zu arbeiten, und der Code,
naja, ist schlimm... Aber ich möchte trotzdem hiermit einen
Postscript-Emulator in Python als Projekt anregen, ich
würde zumindest beratend mitmachen.
ciao - chris
--
Christian Tismer :^) <mailto:tismer at stackless.com>
Mission Impossible 5oftware : Have a break! Take a ride on Python's
Johannes-Niemeyer-Weg 9a : *Starship* http://starship.python.net/
14109 Berlin : PGP key -> http://wwwkeys.pgp.net/
work +49 30 89 09 53 34 home +49 30 802 86 56 mobile +49 173 24 18 776
PGP 0x57F3BF04 9064 F4E1 D754 C2FF 1619 305B C09C 5A3B 57F3 BF04
whom do you want to sponsor today? http://www.stackless.com/