Am Computer muss ich oft eine einfache Datei ablegen und klicke mich dafür durch endlose Ordnerstrukturen: Projekte/2025/AusgabeX/Final_final_v3. Wie viel schöner wäre es, einfach zu sagen: „Speichere das im aktuellen Projektordner“ – und die Maschine gehorcht? Einige Cracks mögen sich ihr Gerät schon so eingerichtet haben.
Auf Android kann man sich seine Assistenz-App wählen. Seit ein paar Wochen versieht Perplexity diesen Butler-Dienst. Ich habe der App dafür Zugriff auf meinen Kalender und Spotify gegeben. Perplexity kann diese Apps steuern. Die App versteht dabei sogar kryptische Satzbrocken wie: „Spiel das Lied von dem Rockstar, der Celtic Glasgow liebt und seinen Club besingt.“ Sekunden später läuft „You’re in My Heart“ von Rod Stewart.
Ebenso mühelos stellt die KI einen Wecker, kalkuliert den Weg zum Flughafen und legt im Kalender ein Meeting auf den ersten Montag im Juli. Perplexity verspricht zudem, Taxis zu rufen oder einen Tisch im Restaurant zu reservieren.
Solche smarten Assistenten gibt es schon länger. Das Problem: Sie waren gar nicht smart. Siri scheiterte an „Welcher Monat ist jetzt?“ Alexa verstand nur exakt auswendig gelernte Kommandos. Das notorische „Dabei kann ich dir leider nicht helfen“ des Amazon-Assistenten habe ich immer noch im Kopf.
Die großen Sprachmodelle haben Milliarden Sätze gefressen und erkennen deshalb auch Nuancen. Sie verstehen, dass „Zeig mir die Fotos, die ich gestern am Strand gemacht habe“ die Galerie öffnet und nicht die Google-Suche.
Perplexity bleibt hier nicht allein. Zeitgleich zieht Google Gemini Live aufs Telefon. Auch Apple hat Siri mit KI aufgebohrt. Sie alle öffnen Apps und können plaudern. Dazu ist nicht nur das Verständnis besser geworden, die Modelle sprechen auch echter. Die Gespräche sind dynamischer. Der fortgeschrittene Sprachmodus von ChatGPT etwa lässt mich unterbrechen und nachhaken. Ich kann Gespräche pausieren und Stunden später weiterführen.
Lesen Sie auch:
- Drei Viertel vertrauen KI-generierten Antworten
- Tool-Tipps von KI-Profi Matthias Biebl
- Darf die KI mit fremder Stimme sprechen?
Offiziell beherrscht der fortgeschrittene Sprachmodus von ChatGPT 58 Sprachen. In der Praxis kommt er mit mehr als 90 klar. Ich nutze ChatGPT schon langer als Tandem-Partner. „Schreibe mir einen Text mit zwei Absätzen auf dem Level B2 auf Italienisch über das Thema Frühstück“, sage ich etwa – und lausche dem Übungstext. Ich kann dann abbrechen und den Text beliebig oft abspielen oder mir Fragen zum Text stellen lassen.
Oft bitte ich ChatGPT, den Text langsamer vorzutragen. Der fortgeschrittene Sprachmodus kann auch flüstern, lachen sowie tiefer oder höher sprechen. Selbst Akzente funktionieren. Probieren Sie mal, ChatGPT Bayerisch sprechen zu lassen oder Deutsch mit französischem Akzent.
Es ist absehbar, dass sich unsere Art zu arbeiten dadurch ändert. Die Kontrolle des Laptops durch Sprache ist der nächste Schritt. Das hat bisher nur schlecht funktioniert, weil man alle Befehle auswendig lernen musste und Apps wie die Sprachsteuerung von Windows schlecht hörten.
Heute lesen Apps wie Google Gemini Live, Perplexity und ChatGPT den Bildschirm schon korrekt mit und interpretieren die Inhalte. Perplexity prüft regelmäßig für mich, ob ein Sonderangebot auf meinem Bildschirm gut ist oder nicht. Claudes „Computer Use“ kann schon einen Text lesen und mit den Informationen korrekt ein Formular befüllen.
Wenn dieser Fortschritt auf jedem Arbeitscomputer einzieht, wird es laut im Büro. Einer gestaltet Folien. Der Nächste filtert Excel. Der Dritte diktiert eine E-Mail. Was das für die Zusammenarbeit bedeutet, darüber sollten die Firmen reden. Mit den Kollegen.
Dieser Beitrag erschien zuerst in der gedruckten Ausgabe #Krise. Das Heft können Sie hier bestellen.