Einfach nutzbare KI-Lösungen in der Cloud: AI Services von AWS

28.07.2020

Von der automatisierten Bildverarbeitung zur Analyse von Texten: Künstliche Intelligenz kann heute in einer Vielzahl von Anwendungsfällen produktiv genutzt werden. Durch die weite Verbreitung von Cloud-Computing ist das so einfach wie noch nie zuvor.

Mit sogenannten „Software-as-a-Service“ (SaaS)-Lösungen für Künstliche Intelligenz bieten Cloudanbieter Schnittstellen an, mit denen sehr einfach eigene Produkte um KI-Fähigkeiten erweitert werden können. Gleichzeitig kümmert sich der Cloudanbieter um die eigentliche Hardware und die Wartung der Software. Dadurch wird die Möglichkeit einfach nutzbarer KI-Services geschaffen.

AI Services von AWS – ein Überblick

Ein Beispiel für einen solchen Services ist das Markieren von Gesichtern in Bildern. Hier können Bilder direkt an den KI-Service geschickt werden, der dann die erkannten Gesichter als Antwort zurückliefert. Amazon ist mit AWS einer der großen Cloudanbieter und bietet eine Vielzahl solcher einfach zu nutzender KI-Services an. Diese werden bei AWS als AI Services bezeichnet. Wir möchten einen kurzen Überblick über die interessantesten AI Services, die von AWS angeboten werden, geben. Wie sie KI in Ihren Produkten ohne großen Aufwand einsetzen können? Wir möchten Ihnen Inspirationen für Ideen geben.

Eines der Hauptanwendungsgebiete, in dem einfach zu verwendende AWS AI Services existieren, ist die Sprachverarbeitung. Abbildung 1 zeigt die gesamte Verarbeitungspipeline für Sprache. Liegen Sprachaufnahmen vor, werden diese zunächst zu Text konvertiert. In der Textform kann die eigentliche Textanalyse stattfinden, bevor je nach Anwendung, Text wieder in Sprache umgewandelt wird.

Verarbeitungsschritte in der intelligenten Sprachverarbeitung
Verarbeitungsschritte in der intelligenten Sprachverarbeitung – Quelle: eigene Darstellung

Gemäß der Abbildung handeln wir die verfügbaren Service in drei Schritten ab:

  1. Sprache-zu-Text
  2. Textanalyse
  3. Text-zu-Sprache

Transkription: Sprache zu Text

Für die Umwandlung von Sprachaufnahmen in Text (auch Transkription genannt) bietet AWS den AI Service Amazon Transcribe. Transcribe nutzt ein leistungsstarkes Machine Learning Modell, um für eine Vielzahl von Sprachen die Transkription von Sprachaufnahmen zu ermöglichen. Die Sprachaufnahmen werden dabei üblicherweise auf AWS in sogenannten Objektspeichern (zum Beispiel Amazon S3) zur Verfügung gestellt und können von dort in den Service gegeben werden.

Für einige Sprachen wie Englisch können nicht nur abgeschlossene Aufnahmen genutzt werden, sondern es ist auch eine Livetranskription möglich. Hierbei wird ein Audiostream transkribiert. Leider wird die Streamingtranskription (Stand Juli 2020) bis dato noch nicht für die deutsche Sprache unterstützt.

Neben der eigentlichen Transkriptionsfunktionalität kann Transcribe die unterschiedlichen Gesprächspartner in einer Aufnahme markieren. Damit können zum Beispiel in einem Gespräch in einer Kundenhotline Kunde und Supportmitarbeiter unterschieden werden.

Damit Transcribe auch den Fachjargon ihres spezifischen Anwendungsfalls versteht, ist es möglich, das allgemeine Machine Learning Modell um eigenes Vokabular zu erweitern.

Dokumente zu Text

Trotz fortschreitender Prozesse sind in vielen Unternehmen manche Prozesse nach wie vor papier-getrieben, oder es existieren große Bestände archivierter Dokumente. Um Textanalyse in diesen Fällen zu ermöglichen, müssen diese Dokumente zunächst digitalisiert (gescannt) werden. Aber damit ist es noch nicht getan: nach dem Scan muss Text aus diesen Dokumenten extrahiert werden. Das wird insbesondere kompliziert, sobald das Dokument ein kompliziertes Layout mit Tabellen und Bildern besitzt. Hier setzt Amazon Textract an, indem es darauf spezialisiert ist Text auch aus komplizierten Formularlayouts sinnvoll extrahieren zu können.

Intelligente Sprachverarbeitung durch Textanalyse

Liegen alle Informationen in Textform vor, bieten sich nun weitere Services an: Der zentrale Dienst zur intelligenten Sprachverarbeitung auf AWS heißt „Comprehend“ (engl. für „verstehen“). Das Texteingabedokument wird an Comprehend geschickt, das nun eine Vielzahl nützlicher Fragen beantworten kann:

  • Die Extraktion von Schlüsselwörtern und -phrasen: Für den zu analysierenden Text werden die wichtigsten Wörter und Phrasen extrahiert, samt einer Bewertung, wie sicher der Algorithmus ist.
  • Stimmungsanalyse: Ist ein Text eher positiv, neutral, oder negativ gestimmt? Diese Unterscheidung ist überall wichtig, wo Kunden Ihnen Feedback hinterlassen können. Ein Beispiel hierfür sind Produktreviews, die Kunden in Onlineshops hinterlassen.
  • Erkennung von Entitäten: Comprehend kann aus einem Text die wichtigsten Personen, Orte, Firmennamen, Datumsangaben und andere sogenannte Entitäten extrahieren. Hierdurch können Sie automatisiert besser verstehen, von was ein Text eigentlich handelt und verschiedene Texte miteinander in Beziehung setzen. Hierbei können Sie auch Ihre eigenen, organisationsinternen Entitäten einpflegen.
  • Erkennung der Sprache des Texts: Falls Sie Texte aus vielen unterschiedlichen Quellen erhalten, ist es wichtig, die dominierende Sprache des Texts zu erkennen, um nachgeschaltete Prozesse in der korrekten lokalisierten Variante ausführen zu können.
  • Automatische Dokumentenklassifizierung: Besitzen Sie bereits einen Datensatz an Dokumenten, die organisationsintern verschiedenen Kategorien zugeordnet haben, können Sie Comprehend nutzen, um neue Dokumente gemäß der vorhandenen Klassifizierung einzusortieren.

Neben der Textanalyse mit Comprehend können Sie Dokumente auch automatisiert übersetzen lassen. Hierfür bietet Amazon den Translate-Service an. Dieser nutzt ein komplexes neuronales Netzwerk, um Texte in viele unterschiedliche Sprachen zu übersetzen. Auch hier kann der Service an die eigene Fachdomäne angepasst werden, indem eine benutzerdefinierte Terminologie erstellt wird.

Text zu Sprache

Schlussendlich kann Text auch wieder in Sprache umgewandelt werden. Hierfür bietet AWS den Polly-Service. Polly kann für viele Sprachen aus Textdokumenten synthetisierte Sprachaufnahmen erstellen. Für Englisch werden zusätzlich besonders eindrucksvolle neuronale Stimmen bereitgestellt, die eine noch mal höhere Sprachqualität erzeugen. Neben der Erstellung der synthetisierten Stimme kann Polly zusätzliche Metadaten erzeugen, die zum Beispiel beschreiben, zu welchem Zeitpunkt in der synthetisierten Aufnahme welche Wörter gesprochen werden. Diese Informationen können für weitere Verarbeitungsschritte von großem Nutzen sein.

Umfangreiche Bild- und Videoverarbeitung

Neben der intelligenten Sprachverarbeitung ist KI auch besonders erfolgreich im Bereich der Bilderkennung. Um nicht selbst aufwändige Modelle trainieren zu müssen, bietet Amazon hier den Rekognition-Service an. Unter diesem Service findet sich eine Vielzahl an angebotenen Featuers, die sowohl für einzelne Bilder, als auch für Videos funktionieren:

  • Labelerkennung: Hierzu gehört die Objekterkennung, in der die Objekte im Bild markiert werden. Zusätzlich kann Rekognition, Konzepte wie „Landschaft“ oder „Strand“ erkennen. In Videodateien können sogar Aktivitäten („steigt in Auto ein“) erkannt werden. Möchten Sie Rekognition in eigenen Anwendungsszenarien einsetzen, können Sie es mit fachspezifischen Bildern ergänzen, um weitere Labels erkennen zu können.
  • Gesichtserkennung: Rekognition markiert Gesichter auf Bildern, inklusive Gesichtsmerkmalen wie die Augen- oder Nasenposition. Zusätzlich können Gesichter aus verschiedenen Bildern verglichen werden, wodurch es zum Beispiel möglich ist, ein Fotoarchiv nach einer bestimmten Person zu durchsuchen.
  • Text-in-Bild-Erkennung: Mit der Texterkennungsfunktionalität kann Text in Bildern erkannt und extrahiert werden. Damit könnten Sie zum Beispiel nach allen Bildern suchen, die dieselbe Seriennummer einer Maschine zeigen.
  • Contentmoderation: Die Erkennung unsicherer Inhalte erlaubt es Ihnen, von Nutzern hochgeladene Bilder entsprechend zu moderieren, um zum Beispiel die Veröffentlichung sexueller Inhalte automatisiert zu verhindern.
  • Laufwegerkennung: Bei der Analyse von Videos können die von Personen zurückgelegten Laufwege erkannt werden. Damit eröffnen sich Ihnen komplett neue Möglichkeiten zur Analyse Ihres Videomaterials. Zum Beispiel können Sie so besser verstehen, wie Ihre Anlagen real genutzt werden und entsprechende Optimierungen planen.
Markieren von Gesichtern in Bildern
Markieren von Gesichtern in Bildern – Quelle: https://commons.wikimedia.org/wiki/File:P051912PS-1096_(8340822443).jpg

(Produkt-)Empfehlungen aller Art

Seit Anbeginn von Amazons Webshop sind personalisierte Produktempfehlungen ein wichtiger Bestandteil von Amazons Geschäftsmodells. Hiermit werden zum Beispiel Kunden Produkte empfohlen, die andere Kunden gekauft haben, die sich für dasselbe Produkt interessiert haben. Eine solche Recommendation Engine ist auf AWS für jedermann einfach verfügbar: Amazon Personalize. Als Eingabe dienen einfache, historisierte CSV-Dateien („comma-separated value“), die einerseits Informationen über die Nutzer wie Alter oder Geschlecht, die vorhandenen Produkte und die Interaktion von Nutzern mit den Produkten enthalten. Zum Beispiel: Nutzer X kaufte das Produkt „Pfanne“. Aus diesen Informationen kann Personalize ein Machine Learning Modell trainieren. Mit dem Modell können dann unterschiedliche Fragen beantwortet werden:

  • Personalisierte Produktempfehlungen: ausgehend von einem Nutzer – was sind die für ihn interessantesten Produkte?
  • Produktähnlichkeit: ausgehend von einem Produkt – welche Produkte sind ähnlich zu diesem Produkt?

In Europa wird der Service aktuell leider nur in der Region Irland angeboten (Stand Juli 2020).

Weitere AI Services von AWS

Neben den hier vorgestellten Services, gibt es noch weitere AI Services:

  • Amazon Kendra: Eine Wissenssuchmaschine – Mit Kendra lassen sich Fragen in normaler Sprache stellen, für deren Antwort Kendra eine Vielzahl angeschlossener Wissensdatenbanken durchsucht. Aktuell ist der Service nur für Englisch und in Europa in Irland verfügbar (Stand Juli 2020).
  • Fraud Detector: Gerade im B2C-Geschäft ist Risikoeinschätzung von zentraler Bedeutung. Hierzu bietet Amazon Fraud Detector Funktionen, um Betrugsfälle zu erkennen: Beim Erstellen neuer Nutzeraccounts, bei Käufern, die über die „Gast“-Funktion ohne Nutzerkonto auf Ihrer Webseite einkaufen. Angekündigt ist auch schon die Risikoeinschätzung von Onlinezahlungsvorgängen.
  • Amazon Forecast: Von Lagerbeständen zu Umsatzzahlen – Daten mit Zeitbezug finden sich überall. Mit Forecast können mittels historischer Daten Vorhersagen über die Zukunft getroffen werden. Dieser AI Service ist etwas mehr hands-on: Daten müssen hochgeladen werden, ein Modell trainiert und deployt werden.
  • Amazon Lex: ein Framework zur Erstellung von Chatbots. Mit Lex können Sie zum Beispiel einen automatisierten Supportbot für Kunden zur Verfügung stellen. Allerdings Stand heute (Stand Juli 2020) mit einer wichtigen Einschränkung: Aktuell unterstützt Lex nur Englisch als Sprache.

Fazit

Sie müssen heute kein Machine Learning Experte mehr sein, um Ihre Apps und Programme, um KI-Funktionalitäten erweitern zu können. AWS bietet mit seinen KI-Services gerade im Bereich Textverarbeitung und Bilderkennung sehr einfach zu nutzende Services an, die Sie schnell aufsetzen und einbinden können. Darüber hinaus gibt es noch einige speziellere Services, wie zum Beispiel die Betrugserkennung mit Amazon Fraud oder die einfache Erstellung von Vorhersagen auf Basis historischer Zeitreihen mit Amazone Forecast, die neue Möglichkeiten eröffnen.

Es lohnt sich, hier überschaubare Ressourcen zu investieren, um in einem Prototyp zu evaluieren, ob auch Sie für Ihren Anwendungsfall sinnvoll von den AWS KI-Services profitieren können.


Finden Sie Cloudplattformen generell faszinierend? Dann könnte unser Whitepaper zum Vergleich zentraler Funktionalitäten auf AWS und Microsofts Azure-Plattform für Sie interessant sein.

Kennen Sie schon die KI Trends des nächsten Jahrzehnts?

Zurück zur Übersicht

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*Pflichtfelder

*