Zusammenfassung
Das beschriebene digitale Segmentationsverfahren unterteilt das Sprachsignal im Zeitbereich in einzelne diskrete Abschnitte, die die zeitliche Lokalisierung der meisten gesprochenen Phoneme im Sprachsignal zulassen. In zwei Vorbereitungsschritten werden zunächst die Pausen sowie die stimmlosen Abschnitte im Verlauf des Signals ausgesondert. Der folgende eigentliche Segmentationsschritt versucht, die Artikulationsgeschwindigkeit des Vokaltrakts an Hand einiger globaler Sprachsignalparameter zu beschreiben. Da der Vokaltrakt sich beim Sprechen nicht konstant bewegt, sondern versucht, die zu jedem Phonem gehörige artikulatorische “Zielstellung” zu realisieren, lassen sich Abschnitte mit geringen Änderungen der Vokaltraktstellung (“stationäre” Segmente) von solchen mit grösseren Änderungen (“dynamische” Segmente) trennen. Berücksichtigt man die Richtung der Änderungen im Parameterverlauf während der dynamischen Segmente, so lassen sich diese noch weiter aufteilen. Das Verfahren wurde auf isoliert gesprochene Wörter angewendet (insgesamt 7 Sprecher); die Fehlerrate — sofern sich eine solche hier überhaupt bestimmen lässt — lag, verglichen mit einer aus der Lautschrift des gesprochenen Textes gewonnenen “Idealsegmentation”, für alle Sprecher bei etwa 3,5%.