Eine Google-KI knackte Matheprobleme, die 56 Jahre offen waren, für ein paar Hundert Dollar

Ein Forschungssystem von Google DeepMind hat vollständige, maschinell geprüfte Beweise für neun offene Probleme geliefert, die der Mathematiker Paul Erdős aufgeworfen hatte, zwei davon seit 56 Jahren ungelöst. Dasselbe System erledigte 44 Vermutungen aus der Online-Enzyklopädie der Zahlenfolgen, schloss eine 15 Jahre offene Frage der algebraischen Geometrie und verbesserte eine bekannte Schranke in der konvexen Optimierung. Die auffällige Zahl zählt weniger als die Methode. Jeder dieser Beweise wurde von einer Maschine geprüft, nicht bloß von ihr behauptet.

Erdős, 1996 gestorben, hinterließ Hunderte präziser, störrischer Fragen, viele leicht zu formulieren und brutal schwer zu schließen. Über Jahrzehnte wurden sie zu einer Art Dauerprüfung für das Fach. Die Folgen-Vermutungen stammen aus einer öffentlichen Datenbank, die Mathematiker nach Mustern durchsuchen und in der eine erratene Formel jahrelang unbewiesen liegen kann. Das sind keine künstlichen Testaufgaben, die ein Modell schmeicheln sollen. Es ist der echte Rückstau der offenen Mathematik.

Genau dieser Unterschied ist die ganze Geschichte. Das System namens AlphaProof Nexus schreibt seine Argumente in Lean, einer formalen Sprache, deren Compiler jeden Schritt verwirft, den er nicht bestätigen kann. Ein Beweis besteht oder besteht nicht, ohne Spielraum für einen selbstsicheren Absatz, der sich später als falsch erweist. Wer beurteilen will, ob eine KI-‚Entdeckung‘ echt ist, findet hier die Grenze zwischen einer Pressemitteilung und einem Resultat.

Unter der Haube läuft der Beweiser auf Gemini 3.1 Pro, ein leichteres Modell übernimmt die Bewertung. Die Schleife ist fast langweilig. Das Modell entwirft einen Beweis in Lean, der Compiler gibt die Fehler zurück, und diese Fehler fließen in den nächsten Versuch. Was ehrlich hält, ist die symbolische Rückmeldung, nicht die flüssige Prosa. Das Team baute vier Versionen wachsender Komplexität, eine davon erzeugt und ordnet konkurrierende Beweisskizzen. Und doch löste die einfachste Version, eine bloße Schleife aus Modell und Compiler, alle neun Erdős-Probleme allein.

Die Ökonomie ist der still verblüffende Teil. Jedes gelöste Problem kostete ein paar Hundert Dollar an Rechenzeit. Fragen, die ganze Laufbahnen verschlungen hatten, wurden für ungefähr den Preis eines Wochenendausflugs geschlossen. Das setzt den Mathematiker nicht in den Ruhestand. Jemand muss noch wählen, welche Probleme sich lohnen, sie in eine Form bringen, die das System lesen kann, und entscheiden, was eine Antwort bedeutet. Was sich ändert, ist die Rechnung, was überhaupt einen Versuch wert ist.

Die Einschränkungen wiegen schwerer als die Schlagzeile. Neun gelöst von 353 versuchten Erdős-Problemen ergibt eine Trefferquote von etwa 2,5 Prozent. Der Folgen-Wert, 44 von 492, liegt unter neun Prozent. Die Autoren sagen offen, dass die meisten dieser Probleme außer Reichweite bleiben, erst recht solche, die umfangreiche neue Theorie verlangen, und dass sich die Treffer dort häufen, wo Leans Mathematikbibliothek schon tief ist. Nimmt man dieses von Menschen gebaute Gerüst und die kuratierte Zielliste weg, bleibt dem System wenig Boden.

Die Vorsicht ist verdient. In einer viel verspotteten Episode verkündete ein konkurrierendes Labor, sein Modell habe zehn Erdős-Probleme gelöst, bis Mathematiker darauf hinwiesen, dass die Antworten längst in der veröffentlichten Literatur standen. Das Modell hatte sie gefunden, nicht bewiesen. AlphaProof Nexus ist so gebaut, dass es gegen diesen Fehler immun ist. Ein Lean-Beweis eines bekannten Resultats ist immer noch gültig, und ein Lean-Beweis von etwas wirklich Neuem lässt sich nicht vortäuschen. Demis Hassabis, der DeepMind leitet, betonte ausdrücklich, die Arbeit sei keine künstliche allgemeine Intelligenz, eine ungewöhnlich vorsichtige Anmerkung für ein Unternehmen, das selten zurückhaltend mit seinen Modellen ist.

Es gibt einen feineren Gewinn, den die Forscher betonen. Selbst die Fehlschläge waren nützlich. Weil jeder Teilbeweis formal geprüft wird, konnten Mathematiker genau sehen, welche Teilziele das System schließen konnte und welche nicht, ohne das ganze Argument von Hand nachzuprüfen. Die Maschine ist kein Orakel mehr, sondern ein unermüdlicher Mitarbeiter, der seine Arbeit zeigt und darauf deutet, wo der schwere Teil noch steckt.

Das Ergebnis steht nicht allein. Es fällt in dieselbe Phase wie eine getrennte Behauptung eines konkurrierenden Reasoning-Modells, das eine rund 80 Jahre alte Erdős-Vermutung der diskreten Geometrie widerlegt haben soll, ein Befund, den aktive Mathematiker verfeinerten und bestätigten. Zwei Labore, zwei Methoden, eines auf formaler Verifikation, das andere auf rohen Argumentationsketten, erreichten dieselbe Front binnen Wochen. Im Wettbewerb geht es nicht mehr um Chatbots, die clever klingen.

Die Arbeit wurde in einem in diesem Monat veröffentlichten Paper dargelegt, und die Methoden stützen sich auf offene Werkzeuge, namentlich Lean und seine von der Gemeinschaft gebaute Bibliothek, sodass externe Gruppen die Beweise prüfen und neu durchlaufen lassen können, statt einem Firmenblog zu glauben. DeepMind hat nicht gesagt, ob das System Forscher außerhalb des Unternehmens erreicht. Die Zahl, auf die es ankommt, ist nicht neun. Es ist die Frage, ob aus 2,5 Prozent zehn werden und dann zwanzig, denn an dem Tag muss die Debatte, wofür diese Maschinen gut sind, von vorn beginnen.

Schlagwörter: künstliche Intelligenz, Google, Gemini, Paul Erdős, AlphaProof Nexus, Automated Theorem Proving