[Python-de] mit RegEx text extrahieren?
Karl Pflästerer
sigurd at 12move.de
Fre Jul 4 19:38:48 EDT 2003
On 4 Jul 2003, Detlef Lannert <- lannert at uni-duesseldorf.de wrote:
> Die Regex hier sucht nach einem ">", anschließend beliebig vielen Zeichen,
> die nicht "<" sind, und als hinterer Begrenzung nach "</". Durch die
Wenn du die non-greedy Variante von »+« verwendest, kannst du auf die
Einschränkung, daß kein »<« im Text vorhanden sein darf verzichten.
re.compile(r'<.+?>(.+)(?=</.+?>)')
böte sich hier zB an. Bei geschachtelten Tags ginge eventuell so etwas
wie:
re.compile(r'^.*<.+?>(.+)(?=</.+?>.*$)')
Karl
--
He took his vorpal sword in hand:
Long time the manxome foe he sought--
So rested he by the Tumtum tree,
And stood awhile in thought. "Lewis Carroll" "Jabberwocky"