Überraschung im KI-Match: ChatGPT vs. Gemini

Künstliche Intelligenz

McDonald’s oder Burger King? Coca-Cola oder Pepsi? Bayern oder Dortmund? Unser Herz schlägt bekanntlich nur für eine Sache. So geht es mir mittlerweile auch mit den KI-Tools und Sprachmodellen: Ich arbeite täglich mit GPT-4, man könnte fast sagen, wir haben uns aneinander gewöhnt. Trotzdem halten wir bei Rlvnt immer die Augen offen nach neuen Tools, die sich aufgrund ihrer Fähigkeiten, aber auch Funktionalitäten noch besser für die verschiedenen Anwendungsfälle in PR und Kommunikation eignen. Große Hoffnungen setzen viele in Gemini, das neue KI-Modell von Google, das Ende letzten Jahres mit viel Tamtam gestartet ist. Natürlich haben wir es einem Vergleichstest mit ChatGPT unterzogen – und das Ergebnis hat mich persönlich überrascht.

Microsoft Copilot im Visier

Wie bei ChatGPT bietet Google nicht nur eine kostenlose Version seiner Sprach-KI an, sondern auch eine kostenpflichtige (Gemini Advanced, 21,99 EUR pro Monat). Diese verspricht Zugriff auf das neueste Sprachmodell Gemini Ultra 1.0, das in verschiedenen Tests mit GPT-4 mithalten konnte. Darüber hinaus kann Gemini Advanced auch Sprache und Bilder verarbeiten und – sobald in Deutschland verfügbar – auf alle persönlichen Dokumente in Google-Anwendungen zugreifen. Ganz klar: Google will nicht nur eine Alternative zu ChatGPT, sondern auch zu Microsofts Copilot bieten.

Für unseren Vergleichstest haben wir sowohl bei ChatGPT als auch bei Google die kostenpflichtigen Versionen genutzt, um Zugriff auf den vollen Funktionsumfang zu haben. In meinen KI-Seminaren sage ich immer: Wer KI nicht nur ausprobieren, sondern im professionellen Kontext einsetzen will, kommt um die Bezahlversionen nicht herum.

One-Way Prompting 

Auf den ersten Blick sind sich ChatGPT und Gemini von der Benutzeroberfläche her sehr ähnlich. Mir gefällt der Warnhinweis bei Gemini: „Deine Unterhaltungen werden von Prüfer*innen verarbeitet, um die für Gemini-Apps verwendeten Technologien zu verbessern. Gib also nichts ein, was von Prüfer*innen nicht gesehen oder von Google nicht verwendet werden soll.“ Deutlicher kann man es nicht sagen und ich kann mir gut vorstellen, dass diese Warnung tatsächlich Wirkung zeigt. Wie ChatGPT bietet auch Gemini die Möglichkeit, die langfristige Speicherung sowie die Verwendung der eigenen Daten zur Verbesserung des Tools auszuschließen.

Die wesentlichen Unterschiede in den Benutzeroberflächen zeigen sich erst auf den zweiten Blick: Gemini punktet mit der Möglichkeit, einzelne Konversationen in den Verlauf zu pinnen und so wichtige Chats immer wieder bequem aufrufen zu können. Außerdem bietet es bei jeder Ausgabe automatisch drei Antwortvorschläge an. Hat man sich für einen entschieden und mit diesem die Konversation fortgesetzt, kann man nicht mehr zurück.

Hier liegt jedoch ein wichtiger Unterschied: ChatGPT bietet die Möglichkeit, an jeden beliebigen Punkt einer Konversation zurückzukehren und diese von dort aus fortzusetzen, indem man den Prompt neu schreibt oder einfach noch einmal sendet. Alle vorherigen Versionen und Verläufe bleiben erhalten. So ist es möglich, verschiedene Prompts auszuprobieren und eigene „Konversationsrouten“ zu entwickeln und miteinander zu vergleichen. Gerade bei der Entwicklung komplexer Texte oder komplexerer, aufeinander aufbauender Prompts ist dies eine zentrale Funktion.

„Ich kann nicht helfen“

Ein weiterer wichtiger Punkt für ChatGPT ist, dass nicht nur Bilder und Sprachaufnahmen hochgeladen werden können, sondern nahezu jede Art von Dokument. Oft haben wir es in der Kommunikationsarbeit mit großen PDF-Dokumenten oder Präsentationen zu tun, die analysiert oder zusammengefasst werden müssen. Das ist mit Gemini nicht möglich.

Leider ist auch die Bildbearbeitung von Gemini eher eine Spielerei: Sobald ein hochgeladenes Foto eine Person zeigt (auch wenn diese nicht erkennbar ist), verweigert Gemini die Arbeit. Das ist zwar aus Datenschutzgründen zu begrüßen, macht aber die multimodalen Funktionen für unsere Zwecke weitgehend wertlos. ChatGPT hat einen Screenshot eines Instagram-Accounts problemlos als solchen erkannt, Gemini nicht.

Die größten Probleme hat Gemini jedoch bei den Aufgaben, die zu den Grundfunktionen eines Sprachmodells gehören: der Erstellung und Verarbeitung von Texten. Und gerade hier hätte ich erwartet, dass das wesentlich jüngere Sprachmodell von Google das mittlerweile mehrere Monate alte GPT-4 locker in die Tasche steckt.

Sowohl die Bitte, ein online veröffentlichtes Interview zusammenzufassen, als auch die Erstellung einer Pressemitteilung lehnt Gemini mit der Begründung ab, dazu nicht in der Lage zu sein. Und obwohl Google damit wirbt, dass Gemini Youtube-Videos analysieren und verarbeiten kann (Youtube gehört schließlich auch Google), verweigert Gemini auch hier die Arbeit. Kommentar: „Ich kann in diesem Fall nicht helfen. Ich bin nur ein Sprachmodell und verfüge nicht über die notwendigen Informationen und Fähigkeiten“.

Das Sprachmodell von Google ist in vielen Fällen noch nicht hilfreich. © Screenshot/Matthias Biebl

Das Sprachmodell von Google ist in vielen Fällen noch nicht hilfreich. © Screenshot/Matthias Biebl

Große Halluzinationsgefahr

In den wenigen Fällen, in denen es uns gelungen ist, auf den ersten Blick brauchbare Ergebnisse zu erzielen, tauchte jedoch immer wieder ein weiteres Problem auf: Gemini neigt viel mehr als ChatGPT zu Halluzinationen – und zwar so, dass es erst auf den zweiten Blick auffällt. Beispiele? Auf die Frage nach den Nachrichten des Tages liefert Gemini die Information, dass in London ein neues Banksy-Bild aufgetaucht ist (richtig), das ein Mädchen mit einem Hula-Hoop-Reifen zeigt (falsch, das war 2020 in Nottingham), der in Flammen steht (frei erfunden).

In Protokollen von Meetings werden schnell Dinge ergänzt, die gut zum Thema passen, aber so nicht gesagt wurden, und Aufgaben, Zuständigkeiten und Termine verteilt, die gar nicht besprochen wurden.

All diese Aufgaben hat ChatGPT zuverlässig erledigt – nur bei der Zusammenfassung des Youtube-Videos bekamen wir erwartungsgemäß den Hinweis, dass es das nicht kann. Trotz dieses eindeutigen Ergebnisses kommt bei mir keine Schadenfreude auf – im Gegenteil. Wir brauchen eine Auswahl gleichwertiger KI-Tools und Akteure, die auf Augenhöhe agieren. Der nächste Hoffnungsträger ist Claude 3 Opus von Anthropic. Mal sehen …


Dieser Beitrag ist Teil der Themenreihe „How-to GenAI“, die sich mit dem Einsatz von generativer künstlicher Intelligenz in der Unternehmenskommunikation beschäftigt. Regelmäßig erscheinen an dieser Stelle Beiträge wechselnder Autor*innen zu theoretischen und praktischen Aspekten.