Difference between revisions of "Taggen"
WikiLingua (talk | contribs) (New page: ==Definition== Beim Tagging wird jedem Token eines Satzes dessen Wortart (engl. part of speech) hinzugefügt. Man bedient sich dazu einer definierten Menge von Tags aus einem sogen...) |
WikiLingua (talk | contribs) |
||
Line 24: | Line 24: | ||
== Ursprung == | == Ursprung == | ||
engl. ''tag'' - markieren, mit einem Anhängeretikett versehen | engl. ''tag'' - markieren, mit einem Anhängeretikett versehen | ||
+ | |||
+ | |||
+ | {{wb}} | ||
+ | [[Category:Computational Linguistics]] |
Revision as of 11:32, 12 July 2007
Definition
Beim Tagging wird jedem Token eines Satzes dessen Wortart (engl. part of speech) hinzugefügt. Man bedient sich dazu einer definierten Menge von Tags aus einem sogenannten Tagset. Normalerweise werden auch den Satzzeichen Tags zugewiesen. Das bekannteste Tagset für die deutsche Sprache ist das STTS (Stuttgart-Tübingen-Tagset), welches vom Institut für maschinelle Sprachverarbeitung der Universität Stuttgart und dem Seminar für Sprachwissenschaft der Universität Tübingen entwickelt wurde. Das STTS enthält 54 verschiedene Tags zur annotation deutscher Textkorpra.
Tagging ist ein wichtiger Verarbeitungsschritt vor der syntaktischen Analyse, dem Parsing. Das zum Tagging verwendete Werkzeug ist ein Tagger.
Beispiel
Die/ARTDEF Sonne/NN scheint/VVFIN ./$
Dabei steht ARTDEF für bestimmter Artikel, NN für Substantiv, VVFIN für finites Vollverb und $ für das Satzendezeichen.
Kommentare
Beim Tagging trifft man vor allem auf das Problem, dass sich zwischen einem Wort und einer Wortart keine eindeutige Beziehung herstellen lässt. Ein Wort kann daher in einem Satz einer bestimmten Wortart eindeutig zugeordnet werden, im darauf folgenden Satz aber schon in einem andern Kontext eine andere Wortart annehmen.
Beispiel:
The/AT representativ/NN put/VBD chairs/NNS on/IN the/AT table/NN ./$
The/AT representativ/JJ put/NN chairs/VBZ on/IN the/AT table/NN ./$
(Quelle: Manning/Schütze 1999, S. 341)
Während man den ersten Satz ohne Probleme lesen kann und dessen Bedeutung sofort klar wird, ist einem Tagger die Bedeutung des gesamten Satzes nicht bekannt. Der zweite Satz ist zwar richtig getaggt, allerdings völlig sinnlos, da ein repräsentativer Put (Schlag beim Golf) keinen Vorsitz auf einem Tisch haben kann.
In einem typischen Korpus finden sich cirka 10% Worttypen, die mehrdeutig sind. Diese 10% der Worttypen machen aber knapp 50% der Wortvorkommen (Token) aus. Man kann also sagen, dass praktisch die Hälfte aller Worte in einem Korpus mehrdeutig sind.
Ursprung
engl. tag - markieren, mit einem Anhängeretikett versehen