[Python-de] mit RegEx text extrahieren?
Stefan J. Betz
stefan_betz at gmx.net
Fre Jul 4 17:55:59 EDT 2003
Am Fri, Jul 04, 2003 at 04:02:15PM +0200, Guenther Sommermann schrieb:
> Hi Liste
>
> Ich habe hier eine Textdatei mit folgendem Format:
>
> <htmltag>URL-einer-Seite</htmltag>
> <htmltag>URL-einer-anderen-Seite</htmltag>
> <htmltag>URL-von-nocheiner-Seite</htmltag>
>
> Aus dieser Datei würde ich jetzt gern nur den Text zwischen den
> Html-Tags extrahieren...
>
> Ich habe versucht die Datei mit "readlines()" einzulesen, das geht
> auch soweit ganz gut.
> Allerdings scheitere ich jetzt an dem RegEx..
>
> Mit welchem RegEx kann ich NUR den Text extrahieren bzw. ausschließen
> das die Html-Tags mit extrahiert werden?
> (Soviel wie: gib mir alles was zwischen dem und dem Html-Tag steht)
>
>
> Gruß Günther
> (Python Newbie)
Hallo Günther,
wenn die Textdatei wirklich nur diesen eine Tagtyp enthält, dann kannst
du dies auch ohne regxp lösen:
for each in dateiobjekt.readlines():
print each[9:-10]
du kannst natürlich statt print auch alle andere damit machen...
regxp würde ich nur verwenden wenn auch noch was anderes im file
steht...:
from re import match
for line in dateiobjekt.readlines():
if match("regxp", line) != None:
print line[9:-10]
das was diese [] konstruktion hinter dem string macht steht in der online doku von
python (Tutorial), oder in jedem schlechten python buch...
mfg Betz Stefan
--
Profitip No. 413:
Zeit sparen durch Rebooten im Hintergrund.
Man will ja nicht jedesmal die Arbeit unterbrechen...
stefan at athlon.hornynet:~$ reboot &
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde geschreddert...
Dateiname : nicht verfügbar
Dateityp : application/pgp-signature
Dateigröße : 248 bytes
Beschreibung: nicht verfügbar
URL : http://starship.python.net/pipermail/python-de/attachments/20030704/8b8be8c0/attachment.bin