Home / Blog / News & Wissen / Voice Search: So funktioniert die Sprachsuche!

Okt 30, 2017

Tobias Stiedl

Voice Search: So funktioniert die Sprachsuche!

Das Thema Voice Search ist seit einigen Monaten in aller Munde, aber was ist Voice Search genau und welchen Einfluss wird die Suche per Sprache auf die Online Marketing Welt haben?
Wir haben eine neunteilige Artikelserie zum Thema Voice Search erstellt, in der wir euch in den kommenden Wochen mit den wichtigsten Trends, Entwicklungen und Neuigkeiten versorgen werden. Zum Einstieg zeigen wir euch, was genau hinter dem Begriff Voice Search steckt, wie Voice Search funktioniert und welche Potentiale darin verborgen liegen.

Voice Search bezeichnet die Eingabe eines Suchbegriffs in eine Suchmaschine durch die Verwendung von natürlicher Sprache. Eine mit der Suche verbundene Interaktion, durch technische Geräte wie digitale Assistenten, wird dabei als „Voice Interaction“ betrachtet. Im Bereich des Online Marketings steht der Begriff „Voice Search“ beziehungsweise „Voice Search by Google“ vor allem für die sprachbasierte Eingabe eines Suchbegriffs in Google.

Voice Search – Der geschichtliche Hintergrund

Erste Forschungen im Bereich von Sprach- und Texterkennungssystemen wurden bereits in den 1960er Jahren unter u.a. von IBM durchgeführt. Im Jahr 1966 wurde dabei die Texterkennungssoftware ELIZA vom Informatiker Joseph Weizenbaum am Massachusetts Institute of Technology entwickelt. Eliza gilt als eine der ersten Anwendungen im Bereich der Texterkennung, die eine natürliche Unterhaltung zwischen einem Menschen und einer Maschine ermöglichte.
Fast fünfzig Jahre später ist die Technologie der Sprach- und Texterkennungssysteme bereits sehr ausgereift und wird stetig weiterentwickelt. Das KI-Beratungsunternehmen Tractica prognostiziert dem Bereich der Spracherkennung ein sehr hohes Umsatzpotential. So soll der Umsatz im Bereich der Spracherkennung innerhalb von zehn Jahren von 600 Millionen US-Dollar (2015) auf 7.125 Millionen US-Dollar (2024) ansteigen.

Prognose zum Umsatz im Bereich Spracherkennung Weltweit — Prognose von Tractica (2015): Weltweiter Umsatz im Bereich Spracherkennung

Wie funktioniert Voice Search eigentlich?

Inzwischen ist Voice Search populär und für die breite Nutzermasse zugänglich geworden. Aber wie genau Voice Search, also die Kommunikation zwischen einem Menschen und dem Computer über natürlich Sprache, funktioniert wissen die wenigsten Nutzer.
Deshalb möchten wir euch einige gängige Verfahren vorstellen, die es ermöglichen, natürliche Sprache in ein computerlesbares Format zu verwandeln.

Natural Language Processing

Natural Language Processing (NLP) ist ein Verfahren aus der Linguistik und definiert sich als maschinelle Verarbeitung natürlicher Sprache. Dabei wird versucht, die Kommunikation zwischen einem Menschen und einer Maschine zu ermöglichen.
Damit natürliche Sprache durch NLP erfasst und analysiert werden kann, müssen zuvor mehrere Schritte durchlaufen werden. Im ersten Schritt wird zunächst ein Aufnahmemedium (Mikrofon) sowie ein Speichermedium benötigt, um die Sprache zu erfassen. Die erfasste Sprache wird anschließend in einzelne Satz- und Wortbestandteile zerlegt (lexikalische Analyse). Im nächsten Schritt erfolgt eine grammatikalische Bestimmung (syntaktische Analyse) der einzelnen Wörter des jeweiligen Satzes. Daraus resultiert eine Extraktion der Bedeutung von Sätzen und Satzteilen (semantische Analyse), die anschließend in einer Beurteilung von Gegensatzbeziehungen und Satzzusammenhängen mündet (pragmatische Analyse).

NLP ist somit ein Prozess, der durchlaufen werden muss, um Worte und Sätze aus der natürlichen Sprache so zu zerlegen und zu klassifizieren, damit ein Computer die Informationen versteht.
Die typischen Anwendungsgebiete von Natural Language Processing sind das Extrahieren und Klassifizieren von Texten und Dokumente oder Echtzeit-Übersetzung. Auch Google nutzt seit dem Jahr 2013 NLP-Algorithmen bei der Interpretation von Suchanfragen. Der dazu entwickelte Hummingbird-Algorithmus ermöglicht dem Suchmaschinenbetreiber komplexe und lange Suchanfragen besser zu verstehen und zu interpretieren, um seinen Nutzern bessere Ergebnisse zu liefern. Wo zuvor Suchanfragen noch mit einfachen „and“ Operatoren verknüpft wurden, werden über Prozesse des NLP auch Zusammenhänge zwischen den einzelnen Wörtern interpretiert.

Voice Search und Künstliche Intelligenz

Das Forschungsgebiet der künstlichen Intelligenz (KI) beschäftigt sich mit der Nachbildung des menschlichen Handelns und der menschlichen Wahrnehmung durch Maschinen. Dabei soll es Maschinen ermöglicht werden, menschliche Verhaltensweisen nachzuahmen, um anspruchsvolle Probleme und Aufgaben zu lösen. Um festzustellen, ob eine Maschine den Ansprüchen genügt und „intelligent“ ist, hat der Informatiker Alan Turing im Jahr 1950 den Turing-Test entwickelt, den bis zum heutigen Tag aber noch keine Maschine erfolgreich bestehen konnte.
Für Voice Search spielt künstliche Intelligenz dennoch eine wichtige Rolle. Dr. Ferenc Acs, Chief Architect bei Watson Technology (IBM) und Spezialist für angewandte Psychologie, künstliche Intelligenz und Big Data Statistik, erläuterte dazu, dass KI und Deep Learning Systeme ähnliche wirtschaftliche und gesellschaftliche Veränderungen auslösen könnten wie es damals die Einführung der IT-Systeme taten. Auch wird die Entwicklung und Verbesserung von KI in naher Zukunft immer stärker im beruflichen Alltag präsent sein, da eine Vielzahl von Berufen ähnlich gut oder sogar effektiver von Maschinen erledigt werden können.
Auch Google hat diesen Trend erkannt und veränderte die Unternehmensstrategie, von „Mobile 1st“ auf „AI 1st“. Das Unternehmen investiert so viel wie kein anderes in die Erforschung und Entwicklung künstlicher Intelligenz. So wurden im Zeitraum von November 2011 bis November 2016 insgesamt elf KI-Unternehmen hinzugekauft. Darunter auch das Unternehmen Deepmind für ca. 400 Millionen US-Dollar, welches unter anderem auch Kaufangebote von Facebook erhielt.

Künstliche Intelligenz im Aufwärtstrend — CB Insights (2017): Investitionen in Startups und Unternehmenszukäufe im Bereich künstliche Intelligenz

Künstliche Intelligenz wird zu einem Schlüsselthema für Unternehmen werden. In einer Zeit, in der immer komplexere Datenmengen anfallen und verarbeitet werden müssen, ist es naheliegend, diese mit Hilfe von intelligenten Assistenten und KI zu organisieren, um die Informationsflut zu bewältigen und den Menschen zu entlasten.
Die potentiellen Einsatzbereiche sind dabei enorm vielfältig. Neben Medizin, Marketing, Bildung, Forschung, Wissenschaft, Finanzwesen, Logistik, Verwaltung, und dem Militär, profitieren vor allem die Endverbraucher. Es gibt nur wenige Lebensbereiche, in denen KI keine Anwendung findet.
Laut einer Prognose von Tractica, wird sich der Umsatz von Unternehmensanwendungen im Bereich der künstlichen Intelligenz weltweit im Jahr 2025 auf über 30 Milliarden US-Dollar belaufen.

Prognose zum Umsatz mit Unternehmensanwendungen im Bereich künstliche Intelligenz weltweit — Prognose Tractica (2016): Weltweiten Umsatz mit Unternehmensanwendungen im Bereich künstliche Intelligenz

Dennoch müssen sich Unternehmen und Forschungseinrichtungen eingestehen, dass es die prophezeite künstliche Intelligenz noch nicht gibt, obwohl der Begriff in den letzten Jahren immer mehr Anklang in der Gesellschaft findet.
Die derzeitigen Anwendungen beruhen allesamt auf Machine-Learning, also einem rein statistischen Verfahren, dass zwar selbst lernen kann, aber noch weit davon entfernt ist, wirklich intelligent zu sein.

Machine Learning

Machine Learning ist ein Teilbereich der künstlichen Intelligenz, bei der klassische Probleme aus den Bereichen der Klassifikation und Regression durch Algorithmen gelöst werden, die anhand von Erfahrungen lernen und sich stets weiterentwickeln. Bei Klassifikationsproblemen geht es darum zu entscheiden, in welcher Klasse ein Ereignis oder eine Beobachtung eingestuft werden kann, um darauf aufbauend weitere Entscheidungen treffen zu können.
Machine Learning kann dazu verwendet werden Vorhersagemodelle zu entwickeln oder Entscheidungen auf Grundlage von Entscheidungsbaummodellen zu treffen. In Kundensupportsystemen kann Machine Learning besonders für den Einsatz von Chatbots genutzt werden. Diese Chatbots können die Fragen eines Kunden auf der Grundlage von Trainings- und Echtzeitdaten, welche die Entscheidungsbaumstrukturen des Bots weiter verbessern, bereits in vielen Fällen passend beantworten. Im Januar 2017 führte Crisp Research eine Studie zu den zukünftigen Einsatzgebieten von Machine Learning durch, welche dessen Bedeutung nochmals untermauert. Dort gaben jeweils über 40 % der befragten Unternehmen an, dass die Funktionalität von Machine Learning in den Bereichen der Sprachsteuerung sowie Spracherkennung und der Textanalyse sowie im Natural Language Processing zukünftig verstärkt genutzt wird.

Der Zukunftstrend Voice Search

Die Verwendung von Sprache als Eingabemedium ist in den vergangenen Jahren vor allem aufgrund der Verbesserung von Spracherkennungssoftware angestiegen.
Experten gehen bereits davon aus, dass Voice Search das Potential besitzt in den kommenden Jahren zu einem echten „Game Changer“ zu werden. So prognostiziert das Internet Marktforschungsunternehmen Comscore, dass im Jahr 2020 die Hälfte aller getätigten Suchanfragen Sprachsuchen sein werden. Ebenfalls zu dieser Einschätzung kam Andrew Ng, Chief Scientist von Baidu. Auch Ng geht davon aus, dass bis zum Jahr 2020, fast 50 % aller Suchanfragen über Voice Search erfolgen werden. Zu einer ähnlichen Einschätzung kam das IT-Marktforschungsunternehmen Gartner, welches angibt, dass 30% aller Web-Browser-Sitzungen bis zum Jahr 2020 ohne einen Bildschirm und somit nur sprachbasiert erfolgen werden.
Dass diese Prognosen tatsächlich Realität werden können, festigt eine 2016 durchgeführte Studie von MindMeld, in der 1.800 Erwachsene Smartphone Nutzer in den USA befragt wurden. Die Studie kam zu dem Ergebnis, dass 45% der Teilnehmer mit der Nutzung der Voice Search Funktion auf ihrem Smartphone erst innerhalb der letzten 12 Monate begannen.

Studie: Wann haben Sie mit der Nutzung von Voice Search begonnen? — Studie Mindmeld (2016): Wann haben Sie mit der Nutzung von Voice Search begonnen?

Über 50,7% der Befragten äußerten sich dabei äußerst zufrieden während der Nutzung des sprachbasierten Systems. Lediglich 37,7% standen der Nutzung neutral gegenüber und nur 11,6% waren unzufrieden.
Das rasante Wachstum bestätigt ebenso eine Studie von HubSpot, welche die Häufigkeit des Gebrauchs von sprachbasierten Suchanfragen in den gängigen Suchmaschinen im Mai und November 2016 untersuchte. Dabei konnte ermittelt werden, dass die wöchentliche Nutzung der Befragten innerhalb von sechs Monaten von 9% auf 38% anstieg.

Studie: Wie oft nutzen Sie Suchmaschinen über die Sprachsuche pro Woche? — Studie Hubspot (2017): Wie oft nutzen sie sprachbasierte Suchmaschinen in der Woche?

Eine im Januar 2017 durchgeführte Studie von Stonetemple, in der über 900 Personen befragt wurden, ergründete, warum die Nutzung von Voice Search so beliebt ist.
Demnach ist die Geschwindigkeit bei Sprachsuchen für über 70% der Nutzer am wichtigsten. Des Weiteren wird die Tatsache, die Fragen nicht mehr selbst eintippen zu müssen und eine Antwort vorgelesen zu bekommen, für über 50% besonders relevant.

Studie: Aus welchen Gründen nutzen Sie Voice Search? — Studie Stonetemple (2017): Warum nutzen sie Voice Search?

Die Gründe für die Nutzung werden umso deutlicher, wenn die Anwendungsbereiche von Voice Search betrachtet werden. So nutzen jeweils über 60% der Befragten die Suche per Sprache zum Starten von Kontaktanrufen, dem Suchen in Suchmaschinen und dem Verfassen von Texten. Ebenso die Nutzung der Navigationssoftware, die Steuerung der Musikanlage sowie das Anlegen von Erinnerungen oder Kalendereinträgen werden als Gründe aufgeführt.

Studie: Für was nutzen Sie Voice Search? — Studie Stonetemple (2017): Für welche Zwecke nutzen Sie Voice Search?

Ein weiterer großer Vorteil liegt vor allem in der Möglichkeit, beide Hände für andere Tätigkeiten nutzen zu können und diese nicht mehr durch die Nutzung des Smartphones zu blockieren. Hieraus erschließt sich eine Korrelation zu einer Aussage des Apple Gründers Steve Jobs während der iPhone-Präsentation auf der Konferenz Macworld 2007 in San Francisco. Dort erläuterte Jobs, dass keine Person einen „Stylus“, der von Apple entwickelter Touch-Stift, mit dem Geräte wie Handys oder Tablets bedient werden können, benötigen wird, solange der Mensch über eine Hand mit fünf Finger verfügt, die den gleichen Zweck erfüllt. Kurz darauf enthüllte er die Multi-Touch-Funktion des iPhones. Diese Metapher kann ebenfalls auf die Nutzung von Voice Search bezogen werden, die im Vergleich zur textbasierten Eingabe weder Hand noch Finger benötigt und somit uneingeschränkt benutzt werden kann.
Somit ist die Geschwindigkeit bei der Eingabe einer Suchanfrage sowie die Tatsache, dass Hände sowie Augen frei genutzt werden können und nicht blockiert sind, ein enormer Vorteil.
Allerdings müssen bislang noch einige Abzüge in der Genauigkeit der Spracherkennung gemacht werden.

“Ein durchschnittlicher Nutzer kann etwa 40 Wörter pro Minute tippen, aber etwa 150 Wörter sprechen, wobei hier der Erfolg mit der Genauigkeit der Spracherkennung steht und fällt.” – Sputnika (2017)

Damit sich die Nutzung von Voice Search in den kommenden Jahren etablieren kann, muss demnach die Spracherkennung in einem zufriedenstellenden Maße funktionieren. So erläuterte der Google CEO Sundar Pichai, während der Google I/O-Konferenz am 17.05.2017, dass die Fehlerquote bei der Spracherkennung auf 4,9% gesenkt werden konnte. Noch ein Jahr zuvor betrug diese 8,5 % sowie im Jahr 2014 noch über 23%. Somit konnte die Fehlerquote von Googles Spracherkennungssoftware innerhalb von drei Jahren um über 75% gesenkt werden.

Andrew Ng, Chief Scientist bei Baidu, ist ebenfalls der Überzeugung, dass es eine Steigerung der Genauigkeit der Spracherkennung auf 99% ermöglichen wird, Spracherkennungssoftware vollwertig in den Lebensalltag zu integrieren.

“A lot of people underestimate the difference between 95% and 99% accuracy in speech recognition. 99% voice recognition is a game-changer,’ said Ng in a recent lecture at Singularity University. ‘It’s the difference between you hardly using it and using it all the time without thinking about it.” – Contagious I/O (2016)

Voice Search hat somit das Potential, den kompletten Suchprozess zu verändern. Weg von einer Such- und hin zu einer Antwortmaschine. Auf die neuen Möglichkeiten, die Voice Search mit sich bringt, sollten Unternehmen so schnell wie möglich reagieren, und ihre bestehenden Marketing- und Vertriebsstrategien anpassen, um wettbewerbsfähig zu bleiben.

“Voice will enable people to interact more directly with the world around them as their eyes move away from their screens. This presents brands with new opportunities to engage people.” – Mindshare (2017)

Ausblick

Im zweiten Teil unserer Voice Search Reihe beschreiben wir, in welchem Ausmaß grafischen Benutzeroberfläche (GUI) in den kommenden Jahren durch sprachbasierte Benutzeroberflächen (CUI) ersetzt werden, welche Geräte und Technologien bereits erhältlich sind und auf welche Highlights Ihr euch demnächst noch freuen dürft.

Ihr wollt weiterhin im Bereich Voice Search auf dem Laufenden bleiben? Dann abonniert unsere Social-Media-Kanäle und verpasst keine Folge unserer Voice-Search Reihe!

Weitere Beiträge unserer Voice Search Reihe

Teil 2: Voice Search – Der Aufstieg der Conversational Systems

Teil 3: Digital Assistant: Smarte Helfer dank Sprachsuche

Teil 4: Voice Search im Online Marketing: Wie bereite ich mich richtig vor?

Teil 5: SEA & Sprachsuche – Worauf sollte geachtet werden?