Τεχνητή Νοημοσύνη: 11 κορυφαίοι μαθηματικοί τη… στρίμωξαν με δισεπίλυτα μαθηματικά προβλήματα
Μια ομάδα 11 μαθηματικών, συμπεριλαμβανομένου του κατόχου του Μεταλλίου Fields, Martin Hairer, ξεκίνησε ένα ανεξάρτητο πείραμα για να δοκιμάσει εάν τα πιο προηγμένα συστήματα τεχνητής νοημοσύνης μπορούν να λύσουν δισεπίλυτα μαθηματικά προβλήματα ερευνητικού επιπέδου, δημοσιεύοντας δέκα ερωτήματα που προέρχονται από τη δική τους αδημοσίευτη εργασία και προσκαλώντας το κοινό να παρατηρήσει τις προσπάθειες της τεχνητής νοημοσύνης πριν αποκαλυφθούν οι κρυπτογραφημένες απαντήσεις στις 13 Φεβρουαρίου.
Το έργο, που ονομάστηκε “First Proof” δημοσιεύτηκε στις 6 Φεβρουαρίου στο arXiv. Οι ερευνητές διεξήγαγαν προκαταρκτικές δοκιμές χρησιμοποιώντας το GPT 5.2 Pro και το Gemini 3.0 Deepthink πριν από τη δημοσίευση. Τα ευρήματά τους υποδηλώνουν ότι ακόμη και τα πιο εξελιγμένα διαθέσιμα στο κοινό συστήματα τεχνητής νοημοσύνης αποτυγχάνουν όταν τους δίνεται μία μόνο προσπάθεια για τα προβλήματα αυτά.
«Οι δοκιμές μας δείχνουν ότι — όταν το σύστημα έχει μία μόνο ευκαιρία να παράγει την απάντηση — τα καλύτερα διαθέσιμα στο κοινό συστήματα ΤΝ δυσκολεύονται να απαντήσουν πολλές από τις ερωτήσεις μας», έγραψε η ομάδα, προσθέτοντας ότι η επαναληπτική αλληλεπίδραση ενδέχεται να βελτιώσει τα αποτελέσματα.
Οι ερωτήσεις καλύπτουν διάφορα μαθηματικά πεδία όπως ο αλγεβρικός συνδυασμός, η φασματική θεωρία γραφημάτων, η αλγεβρική τοπολογία, η στοχαστική ανάλυση, η συμπλεκτική γεωμετρία και η αριθμητική γραμμική άλγεβρα. Κάθε μία έχει απόδειξη περίπου πέντε σελίδων ή λιγότερο.
Ο Martin Hairer ανακοίνωσε το έργο στο LinkedIn, γράφοντας ότι «στις περισσότερες περιπτώσεις, όταν τους δίνεται μία μόνο προσπάθεια, τα κορυφαία μοντέλα εξακολουθούν να μην μπορούν να τις απαντήσουν σωστά» και προσκαλώντας τους συμμετέχοντες να μοιραστούν τις εμπειρίες τους χρησιμοποιώντας το hashtag #1stProof.
Η ομάδα του First Proof σημείωσε ότι τέτοια benchmarks έχουν γίνει “ευάλωτα σε post-training μέσω ενισχυτικής μάθησης”, ενδεχομένως διογκώνοντας τις αναφερόμενες ικανότητες.
Η ομάδα περιλαμβάνει μαθηματικούς από το Stanford, το Columbia, το Yale, το UC Berkeley, το Harvard, το University of Chicago, το University of Texas at Austin, το Πανεπιστήμιο Aarhus και το EPFL. Οι κρυπτογραφημένες απαντήσεις φιλοξενούνται στο 1stproof.org.
“Αντίθετα με τη δημοφιλή αντίληψη ότι η έρευνα αφορά μόνο την εύρεση λύσεων σε καθορισμένα, αρχαία προβλήματα,” σημειώνει η εργασία, “τα περισσότερα από τα σημαντικά μέρη της σύγχρονης έρευνας περιλαμβάνουν το να καταλάβουμε ποια είναι πραγματικά η ερώτηση και να αναπτύξουμε πλαίσια εντός των οποίων μπορεί να απαντηθεί”.
Το όνομα του έργου προέρχεται από την ορολογία της αρτοποιίας: το first proof (πρώτο προζύμι) είναι το στάδιο της ζύμωσης σε όγκο πριν το ψωμί διαμορφωθεί σε καρβέλια. Οι μαθηματικοί ελπίζουν ότι η προκαταρκτική τους προσπάθεια θα “ζυμωθεί στην κοινότητα” πριν παράγει ένα πιο δομημένο benchmark τους επόμενους μήνες.
