Kleine Vorwarnung: Dieser Cache wird voraussichtlich Ende Mai archiviert. Alle, die noch rätseln, sollten sich also beeilen. Bei Fragen helfe ich gern weiter. :-)
Mit diesem Cache möchte ich euch einen Einblick in die Studiengänge Maschinelle Sprachverarbeitung (B. Sc.) und Computerlinguistik (M. Sc.) geben sowie das Institut vorstellen, an welchem man diese beiden studieren kann.
Im Institut für Maschinelle Sprachverarbeitung (IMS) der Universität Stuttgart sind etwa 200 Studierende und 50 Mitarbeitende tätig. Somit befinden sich (gerechnet auf 10 Semester Regelstudienzeit) immer etwa 20 Studis im selben Semester, welche gemeinsam die Vorlesungen in den beiden klassenzimmergroßen Vorlesungssälen V5.01 und V5.02 besuchen oder ihre praktischen Übungen im Computerpool erledigen können. In den ersten beiden Semestern muss man aber noch viel zu den Infos in die großen Hörsäle, um eine Einführung in Mathematik und theoretische Informatik zu bekommen, und auch in folgenden Semestern besteht die Möglichkeit, in der Informatik und auch der Linguistik reinzuschauen und sich so seinen persönlichen Schwerpunkt zu wählen. Informatik und Linguistik – diese beiden Disziplinen werden in der Maschinellen Sprachverarbeitung zusammengeführt, um die Grundlagen für das immer wichtiger werdende Zusammenwirken von Mensch und Maschine voranzutreiben, ob in Sprachsteuerung, maschineller Übersetzung, Suchmaschinen, Textanalyse oder anderswo.
Mehr Informationen: http://www.ims.uni-stuttgart.de/
Jetzt zum Cache
Die Final-Koordinaten haben die folgende Form:
N 48° 44.[A*B*C+86] E 009° 06.[D*E*F-349]
Die Zahlen für A bis F erhaltet ihr, indem ihr euch mit den linguistischen Ebenen (Phonetik, Morphologie, Syntax, Semantik, Pragmatik) in Form von kleinen Aufgaben beschäftigt. Die Aufgaben 1, 2 und 3 könnt ihr zu Hause erledigen; der Rest findet vor Ort statt.
Viel Spaß! :-)
1. Phonetik
Betrachtet folgenden Beispielsatz:
Jeder Student am IMS kennt Hans und Maria .
(Das dürfte sogar stimmen.) Bevor eine Maschine diesen Text vorlesen kann, muss man ihn in Lautschrift übertragen (lassen), in welcher jedem Zeichen ein eindeutiger Laut zugeordnet ist. Eine häufig verwendete Lautschrift ist das Speech Assessment Methods Phonetic Alphabet (SAMPA). Das erste Wort „jeder“ entspricht dort „je:d6“. Dabei gibt der Doppelpunkt (:) eine Längung des vorangehenden Vokals an und die Sechs (6) steht für einen bestimmten a-Laut, den sog. a-Schwa. (Das „r“ am Wortende spricht man ja schließlich nicht mit.)
Eure Aufgabe ist es nun, auch den Rest des Satzes in SAMPA zu bringen. Die Anzahl der Zeichen (ohne Leerzeichen und Satzpunkt) ist dann A.
(Der Satzpunkt ist übrigens bewusst vom letzten Wort abgetrennt, da er als eigenes Wort zählt.)
2. Morphologie
Wir bleiben bei dem Beispielsatz aus Aufgabe 1. Ein wichtiger Schritt in der maschinellen Sprachverarbeitung ist die Wortartenerkennung. Diese Aufgabe kann von einem morphologischen Wortarten-Tagger übernommen werden. Ein Tagger ist ein Programm, welches jedem Wort eine Eigenschaft, in unserem Fall eine Wortart, zuordnet. „Morphologisch“ bedeutet „den Wortaufbau betreffend“; z. B. erkennt man am Wort „IMS“, dass es sich vermutlich um die Abkürzung eines Eigennamens handelt, da alle Buchstaben groß geschrieben sind.
Wortarten werden in der Computerlinguistik als Tags bezeichnet und durch ein sog. Tagset definiert. Viele Tagger lernen maschinell Regeln aus einer großen Sammlung von per Hand getaggten (das nennt man dann „annotierten“) Texten. Damit ihr auch mal ein Gefühl dafür bekommt, sollt ihr jetzt jedem Wort aus dem Beispielsatz das richtige Tag zuzuweisen. Das Tagset, welches ihr verwenden sollt, ist das Stuttgart-Tübingen TagSet (STTS), welches, wie der Name schon vermuten lässt, von den Universitäten Stuttgart und Tübingen entwickelt wurde. Eigennamen erhalten damit z. B. das Tag „NE“.
Eine Liste mit allen STTS-Tags findet ihr dort: http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html
Wie oft kommt das häufigste Tag im Beispielsatz vor? (die Antwort ist B)
Wie viele Buchstaben hat das längste Tag im Beispielsatz? (die Antwort ist C)
PS: Den Punkt nicht vergessen; den braucht ihr später noch. ;-)
3. Syntax
Mithilfe der Tag-Sequenz aus Aufgabe 2 kann man jetzt die Syntax, d. h. den Satzbau, des Beispielsatzes betrachten. Dazu benötigt man eine Grammatik. Grammatiken dienen in der Informatik generell zur Beschreibung von Sprachen, nicht nur von menschlichen Sprachen, und bestehen aus vier Komponenten: einer Menge von Nichtterminalsymbolen, einer Menge von Terminalsymbolen, einer Menge von Produktionsregeln und einem Startsymbol. Nehmen wir zum Beispiel die Klammersprache; das ist die Sprache der Zeichenketten mit korrekter Klammerung, z. B. gehört „( ( ) ) ( )“ zur Klammersprache, „( ( ) ) (“ jedoch nicht. Eine mögliche Grammatik für die Klammersprache wäre:
| Nichtterminalsymbole: |
S, A, Z |
| Terminalsymbole: |
(, ) |
| Produktionsregeln: |
S → S S | A S Z | A Z
A → (
Z → ) |
| Startsymbol: |
S |
Die Terminalsymbole sind genau die Symbole, aus welchen die Elemente der Sprache bestehen können. Die Nichtterminalsymbole sind Hilfssymbole, die man zur Produktion eines Elements benötigt. Ein besonderes Nichtterminalsymbol ist das Startsymbol, bei welchem die Produktion beginnt. Schritt für Schritt werden die Produktionsregeln angewendet, wobei man in jedem Produktionsschritt die linke Seite einer Regel innerhalb des Bearbeitungselements durch die rechte Seite ersetzen darf, bis das Element schließlich nur noch aus Terminalsymbolen besteht. (Die Schreibung „S → S S | A S Z“ ist die Zusammenfassung von „S → S S“ und „S → A S Z“.) Zum Beispiel kann man die obige Zeichenkette „( ( ) ) ( )“ in zehn Schritten produzieren: S, S S, A S Z S, A A Z Z S, A A Z Z A Z, ( A Z Z A Z, ( ( Z Z A Z, ( ( ) Z A Z, ( ( ) ) A Z, ( ( ) ) ( Z, ( ( ) ) ( ). Ganau die Zeichenketten, die man produzieren kann, gehören auch zur Klammersprache.
Eine Produktion kann man auch graphisch mit einem sog. Syntaxbaum darstellen:
S
______|______
| |
S S
______|______ __|__
| | | | |
A S Z A Z
| __|__ | | |
| | | | | |
| A Z | | |
| | | | | |
( ( ) ) ( )
Dieser Syntaxbaum hat zehn innere Knoten (mit Nichtterminalsymbolen) und sechs Blattknoten (mit Terminalsymbolen).
Nachdem die Theorie zu Grammatiken und Syntaxbäumen hoffentlich verstanden ist, kommt jetzt eure eigentliche Aufgabe: Ihr sollt den Syntaxbaum für die Tag-Sequenz aus Aufgabe 2 finden. Dazu gebe ich euch eine Grammatik vor, mit welcher man gültige Tag-Sequenzen erzeugen kann:
| Nichtterminalsymbole: |
S, IP, NP, PP, TP, VP, ADVP, KONP |
| Terminalsymbole: |
alle Tags aus dem STTS |
| Produktionsregeln: |
S → S $. | S $, S | IP | NP VP
NP → NP PP | NP KONP | ADJA NN | PIAT NN | PPOSAT NN | NE | NN | PIS | PPER
PP → APPR NP | APPRART NP | NP APPO
VP → VVFIN ADVP NP | VVFIN NP ADVP | VVFIN NP | VVFIN
ADVP → ADV | ADJD
KONP → KON NP | KON VP |
| Startsymbol: |
S |
Grammatiken wie diese, nur um einiges komplexer, werden sowohl in der automatischen Textanalyse als auch in der automatischen Texterzeugung verwendet.
Dazu noch der Hinweis, dass Nicht- und Terminalsymbole auch aus mehr als einem Zeichen bestehen können; „NP“ ist nur ein Nichtterminalsymbol. Die Benennung wie oben ist in der Computerlinguistik üblich; „-P“ bei den Nichtterminalsymbolen steht für „-phrase“ („NP“ = „Nominalphrase“, „VP“ = „Verbalphrase“ etc.) und „S“ steht für „Satz“. Des Weiteren steht auf der linken Seite einer Produktionsregel genau ein Nichtterminalsymbol, auf der rechten Seite können beliebig viele Nicht- und Terminalsymbole stehen.
Wie viele innere Knoten enthält der Syntaxbaum? (die Antwort ist D)
4. Semantik
Semantik ist die Lehre von Bedeutung. Ein Konzept aus der semantischen Stufentheorie ist die Unterscheidung zwischen Objektsprache und Metasprache. Eine Objektsprache beschreibt außersprachliche Dinge, während eine Metasprache eine Objektsprache beschreibt. Zum Beispiel:
• Stuttgart ist eine Landeshauptstadt. (Objektsprache; wir sprechen über die Stadt Stuttgart)
• ‚Stuttgart‘ hat neun Buchstaben. (Metasprache; wir sprechen über das Wort ‚Stuttgart‘)
Für die Aufgabe müsst ihr den Beispielsatz der bisherigen Aufgaben sowie eure Wohnung verlassen und euch nach draußen zu den oben angegebenen Koordinaten begeben. Dort angekommen steht ihr auf etwas, das wir liebevoll „Betonwüste“ nennen. Bei schönem Wetter spielen die IMS-Studenten hier öfter Frisbee oder Tischtennis. In einem der drei Sichtbetonbauten befindet sich das IMS. Davor steht ein Schild, dessen Aufschrift das Gebäude in Objektsprache beschreibt. (Der Name des Instituts steht nicht auf dem Schild, aber wer beim Einführungstext aufgepasst hat, der wird das richtige Gebäude erkennen.) Von euch möchte ich jetzt wissen, wie viele Ziffern und wie viele Großbuchstaben auf dem Schild zu sehen sind. Die Antworten sind E bzw. F.
Prüfquersumme: QS(A+B+C+D+E+F) = 13
5. Pragmatik
Da ihr mittlerweile alle benötigten Zahlen zusammengetragen habt, könnt ihr euch jetzt zu den Finalkoordinaten begeben. Auf dem Weg dorthin möchtet ihr euch aber vielleicht noch mit einem Aspekt aus der Pragmatik beschäftigen. Die Pragmatik beschäftigt sich mit der Sprachverwendung, z. B. der Intention eines Sprechers bei einer Äußerung. Da es sich bei der Pragmatik nicht nur um Mathe und Zahlen dreht, habe ich damals in der Einführungsvorlesung nicht immer gleich alles gepeilt. Mit wie bei den ersten Buchstaben und Aufgaben massig phonetischen, morphologischen und syntaktischen Berechnungen oder wie bei Buchstabe bzw. Aufgabe E und 4 zig meta- und objektsprachlichen Betrachtungen hatte ich dahingegen keine Probleme. Aber bei pragmatischen Fragestellungen muss man halt auch zwischen den Zeilen lesen können. Zum Beispiel beim Erkennen von sog. Konversationsmaximen. Eine davon, die Maxime der Quantität, besagt, dass Sprechende einen Gesprächsbeitrag in der Regel so informativ wie nötig gestalten, aber nicht informativer. Oder eine andere, die Maxime der Relevanz, besagt, dass Sprechende standardmäßig nichts sagen, was nicht zum Thema gehört. Wie auch immer, auch so was kann man lernen. Ihr seht ja, dass ich euch mittlerweile auch darüber einfach so und aus dem FF grad eben mal etwas erzählen kann.
Ich hoffe, dass euch der Cache ebenso viel Freude bereitet hat wie mir. Und vielleicht konnte ich ja den einen oder die andere für ein Studium am IMS begeistern? ;^)