Anzeige
MPeX.net Suche
Home Page : News : Software : Moderne Sprachsynthese: Bilder lernen sprechen [Update]

Moderne Sprachsynthese: Bilder lernen sprechen [Update]

Artikel: weiterempfehlen | kommentieren
01.04.2009 | Von Dirk Bösel

[Update 02.04.2009: Na klar, diese Meldung war unser Aprilscherz 2009]

Es ist heutzutage recht einfach und verbreitet, sich Texte vom Computer vorlesen zu lassen. Durch die moderne Sprachsynthese werden dazu keine menschlichen Sprecherinnen oder Sprecher benötigt.

Für Sehbehinderte stellt diese Technik eine große Hilfe dar, andere Nutzer schätzen den Komfort solcher Text-to-Speech-Systeme.
So bieten einige Onlinemagazine ihren Lesern die Möglichkeit, Artikel als MP3-Datei herunter zu laden und später auf dem mobilen Player anzuhören. Es gibt Programme, die Textdateien direkt in Audiodateien umwandeln und eigene Texte mit wenigen Klicks hörbar machen.

Moderne Sprachsynthese-Systeme sind sehr leistungsfähig. Ihre Sprechqualität geht weit über die Rufnummernansage einer Mobilbox oder die Guthabenabfrage des Prepaid-Handys hinaus. Nur bei Abkürzungen oder Anglizismen geraten sie gerne ins Stolpern.

Das gilt für reine Texte. Artikel in Magazinen oder Zeitschriften enthalten dagegen oft Abbildungen und Fotos. Text-to-Speech-Programme ignorieren solche Elemente und damit auch einen Teil des Inhalts.

Bilder lernen sprechen

Das Institut für elementare Linguistik an der FH Freudenstadt hat nun einen Ansatz entwickelt, per Sprachsynthese auch Bilder zu vertexten. Das imagolingo getaufte Verfahren nutzt dazu umfangreiche Bilddatenbanken und deren Schlagwortkataloge. Dazu gehören auch Foto-Communities im Internet, in denen Millionen von Fotos abrufbar und mit Schlagworten oder Kurzbeschreibungen versehen sind.

Stößt imagolingo beim Konvertieren eines Textes auf Abbildungen, erstellt es einen digitalen Fingerabdruck, den es mit seiner Datenbank abgleicht. Über eine Heuristik werden Bilder mit hoher Übereinstimmung ermittelt und aus deren Schlagworten wiederum Bildbeschreibungen generiert.

Angestestet

Wir konnten einen Blick auf eine frühe Entwicklerversion der Bildbeschreibungsfunktion werfen. Die Ergebnisse können sich durchaus hören lassen. Zwar wurden nicht immer alle Inhalte unserer Fotografien vollständig erfasst, trotzdem dürfte die textliche Beschreibung das Vorstellungsvermögen in die richtigen Bahnen lenken.

Die nachfolgenden Audiobeispiele unserer Testfotos demonstrieren das sehr eindrucksvoll.



[Audio 1 "Statue", MP3 220 KB] [Audio 2 "Hamburger", MP3 280 KB] [Audio 3 "Frosch", MP3 460 KB]

Artikel: weiterempfehlen | kommentieren
Kommentieren | Verschicken


KOMMENTARE / DISKUSSION
Kein Kommentar vorhanden

[ Kommentar schreiben ]
LESEZEICHEN SETZEN
Bookmark bei del.icio.us Bookmark bei Mister Wong Bookmark bei Digg Bookmark bei Folkd Bookmark bei Webnews Bookmark bei Google Bookmark bei Yahoo Bookmark bei Linkarena Bookmark bei Yigg
NEWSLETTER
» Jetzt für kostenlosen Newsletter anmelden

« Voriger Artikel News Gesamtübersicht Nächster Artikel »

Anzeige
Copyright © 2017 MPeX.net GmbH       Impressum       Verzicht       Suche Hosting by mpex