Benchmark-Rekorde beantworten die falsche Frage

Gemini 3.1 Pro ist noch nicht mal offiziell draußen — und schon dominiert es die Leaderboards. Humanity's Last Exam, APEX-Agents: Platz 1. Das klingt nach einem klaren Gewinner. Aber ich frage mich jedes Mal: Gewinner wofür?

Die Zahlen stimmen. Die Frage dahinter ist trotzdem falsch.

#Was Benchmarks wirklich messen

Benchmarks sind Labortests. Sie prüfen, ob ein Modell unter kontrollierten Bedingungen abstrakte Aufgaben löst. Humanity's Last Exam ist dabei besonders extrem — die Fragen sind so schwer, dass selbst Experten scheitern. Dass Gemini 3.1 Pro dort neue Bestmarken setzt, sagt etwas über das Potenzial des Modells. Es sagt nichts darüber, ob es meinen nächsten Projektbrief besser schreibt.

Dein Workflow ist kein Labor. Du hast Kontext, der nicht in einem Prompt steckt. Du hast Formatanforderungen, Tonalität, Kundenhistorie. Benchmarks blenden das alles aus.

Das ist kein Vorwurf an Google. Es ist ein strukturelles Problem. Jedes Unternehmen, das ein neues Modell veröffentlicht, braucht eine Zahl, die sich kommunizieren lässt. Ein Leaderboard-Eintrag ist einfacher zu verstehen als "es kommt auf deinen Anwendungsfall an."

#Warum ich trotzdem hinschaue

Ich teste täglich mit Gemini, Claude und GPT. Alle drei sind gut. Alle drei haben blinde Flecken. Welches Modell in einem bestimmten Moment besser ist, hängt fast immer vom konkreten Task ab — nicht vom letzten Benchmark-Ergebnis.

Was mich an Gemini 3.1 trotzdem interessiert, ist der APEX-Leaderboard-Eintrag. Nicht wegen der Platzierung, sondern wegen der Methodik dahinter. Brendan Foody, CEO von Mercor, hat APEX explizit so gebaut, dass es echte professionelle Aufgaben misst — keine Prüfungsfragen, sondern Dinge, die Wissensarbeiter täglich tun.

Das ist ein anderer Ansatz. Wenn ein Modell dort vorne liegt, wird es spürbar. Nicht in Charts, sondern in der Zeit, die du sparst.

#Der Fehler, den viele machen

Viele wechseln ihr Haupt-Tool nach jedem großen Release. Gemini ist raus — alle zu Gemini. GPT-5 kommt — alle zurück zu GPT. Das kostet Zeit. Du lernst nie wirklich, wie ein Modell in deinem spezifischen Kontext arbeitet.

Ich sehe das bei Kollegen und bei mir selbst. Die Versuchung ist groß. Ein neues Modell fühlt sich frisch an. Aber "frisch" ist keine Kategorie, die zählt.

Was zählt: Wie gut löst dieses Modell die drei Aufgaben, die ich heute sowieso machen muss?

#Ein Gegenargument — und warum es nicht greift

Man könnte sagen: Wer den Benchmark-Gewinner nutzt, hat zumindest das stärkste Fundament. Stimmt theoretisch. Aber Modelle sind keine Autos, bei denen mehr PS automatisch schneller bedeutet. Ein Modell mit höherem Benchmark-Score kann bei deinem spezifischen Prompt trotzdem schwächer performen — weil es anders auf Kontext reagiert, weil es andere Stärken in der Sprachausgabe hat, weil es bei langen Dokumenten anders strukturiert.

Claude ist in bestimmten Schreibaufgaben für mich immer noch das stärkste Werkzeug. Nicht weil es den besten Benchmark hat. Sondern weil ich weiß, wie ich es prompen muss, und weil es meinen Stil konsistenter trifft.

Das ist keine Meinung gegen Gemini 3.1. Es ist ein Argument für eigene Tests statt fremde Ranglisten.

#Was du konkret tun kannst

Wenn du Gemini 3.1 Pro testen willst, sobald es allgemein verfügbar ist — gut. Aber mach es richtig.

Nimm drei Aufgaben aus deiner echten Arbeit der letzten Woche. Keine konstruierten Beispiele. Aufgaben, bei denen du weißt, was ein gutes Ergebnis ist, weil du es schon selbst gemacht hast. Dann vergleich die Ausgaben — nicht mit einem anderen Modell, sondern mit deiner eigenen Erwartung.

Wenn das Modell dir dort Zeit spart, ist es gut für dich. Wenn nicht, ist der Leaderboard-Eintrag egal.

Drei echte Tasks. Das sagt mehr als jeder Benchmark-Chart.