«Μικροσκοπικά τσιπς, γιγαντιαία προβλήματα» ήταν, σε ελεύθερη μετάφραση, ο τίτλος άρθρου των New York Times, τον Φεβρουάριο του 2022, λίγο αφότου είχε γίνει γνωστό από έρευνα του Facebook και μετέπειτα της Google ότι ένα στα 1.000 τσιπ μικροεπεξεργαστών (CPUs) που χρησιμοποιούνται στα μεγάλα κέντρα δεδομένων εκτελεί λανθασμένους αριθμητικούς υπολογισμούς, και μάλιστα χωρίς να αντιλαμβάνεται κανείς το πώς, το πότε και το γιατί.
Με την διαπίστωση του σύνθετου αυτού προβλήματος οι κολοσσοί της τεχνολογίας, όπως είθισται να τους αποκαλούν, απηύθυναν πρόσκληση στην ερευνητική κοινότητα να ασχοληθεί ενεργά με το πρόβλημα για να βρεθούν, αν όχι λύσεις, έστω πιθανοί τρόποι εντοπισμού των «σφαλμάτων» αυτών, που πήραν την ονομασία «σιωπηλά σφάλματα» (silent errors).
Στα πέντε πανεπιστήμια από όλο τον κόσμο που επιλέχθηκαν, βρέθηκε και η ερευνητική ομάδα (Εργαστήριο Αρχιτεκτονικής Υπολογιστών) του Τμήματος Πληροφορικής και Τηλεπικοινωνιών του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών με επικεφαλής καθηγητή, τον κ. Δημήτρη Γκιζόπουλο.
Έναν χρόνο και πλέον μετά, και λίγο πριν ανέβει στη σκηνή του 15ου TEDx Athens Conference 2024 για να μοιραστεί τις λεπτομέρειες της συγκεκριμένης προσπάθειας, ο κ. Γκιζόπουλος μιλά στο Insider για το τι σημαίνει να είσαι μέρος μιας ομάδας ερευνητών που προσπαθεί να επιλύσει ένα τόσο σημαντικό πρόβλημα, για την πρόοδο στο πεδίο της έρευνας καθώς και για την ομορφιά και τις σύνθετες αλληλεπιδράσεις των διαφόρων πτυχών της υπολογιστικής (computing).
- Το Τμήμα Πληροφορικής και Τηλεπικοινωνιών του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών με εσάς επικεφαλής είναι ένα από τα πέντε πανεπιστήμια που προσπαθούν να βρουν την συχνότητα των «σιωπηλών σφαλμάτων» των τσιπ αλλά και τρόπους εντοπισμού τους. Μπορείτε αρχικά να μας πείτε λίγα - απλά κατά προτίμηση - λόγια για το πρόβλημα που εντοπίστηκε;
Το πρόβλημα των «σιωπηλών σφαλμάτων» (silent errors) εντοπίστηκε στα μεγάλα κέντρα δεδομένων (data centers) και ανακοινώθηκε από την Meta και τη Google και πρόσφατα επιβεβαιώθηκε και από την Alibaba.
Περίπου 1 στα 1000 τσιπ μικροεπεξεργαστών (CPUs) που χρησιμοποιούνται σε αυτά τα κέντρα δεδομένων εκτελεί λανθασμένους αριθμητικούς υπολογισμούς – αντί να δώσει το σωστό αποτέλεσμα 18850 στον πολλαπλασιασμό 130 επί 145, δίνει αποτέλεσμα 18594 – αλλά κανένας μηχανισμός στους υπολογιστές στους οποίους βρίσκονται αυτά τα τσιπ δεν εντοπίζει το λάθος.Το λανθασμένο αριθμητικό αποτέλεσμα διαδίδεται περαιτέρω κατά την εκτέλεση των προγραμμάτων τα οποία τελικά δίνουν τη λάθος απάντηση στον τελικό χρήστη.
Φανταστείτε ότι μια εταιρεία χρησιμοποιεί ένα κέντρο δεδομένων και σε αυτό εκτελεί ένα απλό πρόγραμμα εύρεσης του μέσου όρου ενός δισεκατομμυρίου διαφορετικών αριθμών. Ένα σιωπηλό σφάλμα θα οδηγήσει σε λανθασμένους υπολογισμούς, θα δώσει στον χρήστη τη λάθος απάντηση χωρίς αυτός να το γνωρίζει. Αν ο παραγόμενος μέσος όρος καθορίζει σημαντικές αποφάσεις της εταιρείες φανταστείτε πόσο δραματικές είναι η επιπτώσεις του σιωπηλού σφάλματος.
Αν το 1 από τα 1000 AI τσιπ παράγει «σιωπηλά» σφάλματα, πόσο εύκολα δέχεται κανείς την ορθότητα του μοντέλου τεχνητής νοημοσύνης που τελικά παράγεται
Η ερευνητική μου ομάδα (Εργαστήριο Αρχιτεκτονικής Υπολογιστών του ΕΚΠΑ) μετέχει και στις τρεις τρέχουσες διεθνείς ερευνητικές προσπάθειες σχετικά με το πρόβλημα των σιωπηλών σφαλμάτων. Η πρώτη ξεκίνησε με πρωτοβουλία της Meta και μετέχουν τέσσερα πανεπιστήμια της Βορείου Αμερικής και η ομάδα μου στο ΕΚΠΑ (η επιλογή έγινε μεταξύ 65 ομάδων που δήλωσαν ενδιαφέρον). Η δεύτερη προσπάθεια ξεκίνησε από την AMD και μετέχει μόνο η ομάδα μου στο ΕΚΠΑ και μια δεύτερη ομάδα στο MIT, ενώ η πιο πρόσφατη γίνεται στο πλαίσιο του Open Compute Project (OCP) όπου από κοινού οι Meta, Google, AMD, Intel, NVIDIA, Arm, Microsoft επέλεξαν, μεταξύ 25 ενδιαφερόμενων ομάδων, μόνο έξι ερευνητικές ομάδες (την ομάδα μου στο ΕΚΠΑ και άλλες πέντε από τις ΗΠΑ) για να εργαστούν για το σημαντικό αυτό πρόβλημα.
-Πώς προχωρά η έρευνα σε αυτό το πεδίο, μπορείτε να μοιραστείτε μαζί μας κάποια συμπεράσματα; Και πόσο κοντά είμαστε στο να μετρηθεί με ακρίβεια η έκταση του προβλήματος;
Το πρόβλημα είναι ιδιαίτερα ευαίσθητο διότι θίγει την αξιοπιστία όσων εταιρειών τεχνολογίας εμπλέκονται στην αλυσίδα παραγωγής υπολογιστικών μηχανών. Από αυτές που σχεδιάζουν τα τσιπ μικροεπεξεργαστών όλων των τύπων, αυτές που κατασκευάζουν τα τσιπ, αυτές που συγγράφουν το λογισμικό που εκτελείται στις μηχανές, μέχρι τους μεγάλους «hyperscalers» δηλαδή τις εταιρείες που χρησιμοποιούν σε τεράστια κλίμακα τα τσιπ και παρέχουν υπηρεσίες υπολογιστικού νέφους (cloud) σε όλους μας. Λόγω της ευαισθησίας του προβλήματος και παρά τις αξιέπαινες προσπάθειες κάποιων εταιρειών (με πρώτες την Meta και τη Google) να ενημερώσουν το κοινό για το πρόβλημα, τα δεδομένα που διατίθενται στην ερευνητική κοινότητα για την ανάλυση του προβλήματος είναι ακόμη περιορισμένα.
Η προσέγγιση της δικής μου ερευνητικής ομάδας για τη μέτρηση του μεγέθους του προβλήματος αλλά, κυρίως, τον έγκαιρο εντοπισμό των ελαττωματικών τσιπ βασίζεται σε μεθόδους ανεξάρτητες από τα δεδομένα που παρέχουν οι εταιρείες αλλά ταυτόχρονα μπορεί να προσαρμόζεται σε αυτά όταν παρέχονται. Η μέθοδος που έχουμε αναπτύξει για την εύρεση ελαττωματικών τσιπ επεξεργαστών κατά τη διάρκεια της λειτουργίας τους έχει αποδειχθεί ήδη αποτελεσματική σε περιβάλλον εργαστηρίου αλλά και σε πρώτο επίπεδο και σε υπολογιστικά συστήματα των εταιρειών! Προχωρούμε στην αξιολόγησή της σε μεγάλη κλίμακα. Ως προς τη μέτρηση των διαστάσεων του προβλήματος: φαίνεται ότι είναι μεγαλύτερο από τις αρχικές εκτιμήσεις.
-Ποιες είναι οι ευκολίες ή οι δυσκολίες που αντιμετωπίζει κανείς όταν αποτελεί μέρος μιας παγκόσμιας βιομηχανικής και ακαδημαϊκής προσπάθειας με επικεφαλής κολοσσούς όπως οι Meta, Google, AMD, Intel, Nvidia, Arm, Microsoft.
Η ομορφιά της υπολογιστικής (computing) και της δουλειάς του μηχανικού υπολογιστών είναι ότι έχει απτά και ποσοτικά αποτελέσματα. Για το πρόβλημα που συζητούμε για παράδειγμα μετρούμε: το πλήθος των τσιπ που είναι ελαττωματικά, τον ρυθμό με τον οποίο δημιουργούνται σιωπηλά σφάλματα, τον χρόνο που μπορεί κάποιος να δαπανήσει για να εντοπίσει τα τσιπ, το κόστος που απαιτείται για την αντιμετώπιση του προβλήματος. Όταν μια ομάδα ερευνητών προσπαθεί να επιλύσει ένα τόσο σημαντικό πρόβλημα σε συνεργασία με τους κολοσσούς, όπως αναφέρατε, της παγκόσμιας τεχνολογίας, τότε οι συνθήκες είναι κυριολεκτικά ονειρεμένες γιατί δεν ασχολείσαι με ένα πρόβλημα που νομίζεις ότι είναι σημαντικό, αλλά με ένα πρόβλημα στο οποίο η αιχμή της τεχνολογίας αναζητά επειγόντως λύσεις.
Σκεφτείτε τι σημαίνει για τα μέλη μιας ελληνικής επιστημονικής ομάδας όπως η δική μου, η προσέγγιση της να «δουλεύει» σε μηχανές που κατασκευάζουν οι κυρίαρχες εταιρείες του κόσμου και να αποτελεί ένα καινοτόμο κομμάτι του παζλ των λύσεων! Καταλαβαίνετε από τα παραπάνω ότι δυσκολίες όπως η, κάποιες φορές «με το σταγονόμετρο», παροχή δεδομένων από τις εταιρείες λίγη σημασία έχουν μέσα στις υπέροχες στιγμές παραγωγής ιδεών που ζούμε.
-Η έρευνα της ερευνητικής ομάδας σας επικεντρώνεται όχι μόνο στην αξιόπιστη αλλά και στην ενεργειακά αποδοτική αρχιτεκτονική των μικροεπεξεργαστών και των συστημάτων που βασίζονται σε μικροεπεξεργαστές. Δεδομένης της στροφής στην τεχνητή νοημοσύνη, τεχνολογία που απαιτεί μεγαλύτερη επεξεργαστική ισχύ, άρα και περισσότερη ενέργεια, πώς βλέπετε να διαφοροποιούνται οι ενεργειακές ανάγκες; Διαφαίνονται κάποιες τάσεις στη σχεδίαση μικροεπεξεργαστών που μπορεί να επηρεάσουν την ενεργειακή απόδοση στο εγγύς μέλλον;
Η ερευνητική μου ομάδα αναλύει τις σύνθετες αλληλεπιδράσεις μεταξύ των δύο πτυχών που αναφέρατε (αξιοπιστία και ενέργεια) καθώς και μια τρίτη πτυχή, αυτή των υπολογιστικών επιδόσεων, δηλαδή το πόσο γρήγορα εκτελούνται τα προγράμματα στις μηχανές μας. Η συσχέτιση μεταξύ των τριών πτυχών είναι πολύ στενή καθώς κάθε σχεδιαστική παρέμβαση για να βελτιωθεί η μία από τις τρεις οδηγεί σε επιβάρυνση των άλλων δύο.
Για παράδειγμα, η αντιμετώπιση των σιωπηλών σφαλμάτων (άρα η βελτίωση της αξιοπιστίας) απαιτεί δαπάνη ενέργειας αλλά και βέβαιη επιβάρυνση της ταχύτητας εκτέλεσης των προγραμμάτων. Ομοίως φανταστείτε ότι κάθε προσπάθεια βελτίωσης της επίδοσης ενός υπολογιστή δημιουργεί μεγαλύτερες απαιτήσεις ενέργειας αλλά και μεγαλύτερους κινδύνους εσφαλμένης λειτουργίας. Είναι μια ιδιαίτερα δύσκολη εξίσωση!
Στην εποχή μας όπου συνεχίζονται με αυξανόμενο ρυθμό οι προσπάθειες στην περιοχή της μηχανικής μάθησης ή τεχνητής νοημοσύνης, και οι τρεις πτυχές έχουν μεγάλη βαρύτητα. Τα συστήματα «εκπαίδευσης» μοντέλων τεχνητών νοημοσύνης καταναλώνουν τεράστια ποσά ενέργειας και ήδη υπάρχει παγκόσμια ανησυχία για την τάση αυτή. Όταν ακόμη μεγαλύτερα ποσά ενέργειας πρέπει να δαπανηθούν για την αντιμετώπιση και των συνεπειών των σιωπηλών σφαλμάτων φανταστείτε ότι το ζήτημα της ενεργειακής αποδοτικότητας γίνεται, ίσως, το κρισιμότερο όλων.
Συνεπώς, ναι, η σχεδίαση των σύγχρονων μικροεπεξεργαστών (είτε γενικού σκοπού είτε με εστίαση σε υπολογισμούς για την τεχνητή νοημοσύνη) επικεντρώνεται στη βελτίωση της ενεργειακής αποδοτικότητας χωρίς προς το παρόν τα αποτελέσματα να είναι εντυπωσιακά. Χρειαζόμαστε μεγάλα ποσά ενέργειας για να συνεχίσουμε να παρέχουμε τα θαυμαστά αποτελέσματα της υπολογιστικής.
Πού βλέπετε να κατευθύνεται ο τομέας της αρχιτεκτονικής υπολογιστών τα επόμενα 5 έως 10 χρόνια, ιδίως όσον αφορά την αξιοπιστία και την ενεργειακή αποδοτικότητα; Ποιες μεγάλες προκλήσεις έχουμε μπροστά μας;
Κατά την άποψή μου οι μεγάλες προκλήσεις των επόμενων ετών δεν διαφέρουν ουσιαστικά από αυτές που αντιμετώπισε η μηχανική των υπολογιστών τις προηγούμενες δεκαετίες. Αυτό που αλλάζει είναι η σημασία που έχει πλέον η υπολογιστική σε ό,τι κάνουμε, άρα και η ένταση των διενέξεων γύρω από αυτή. Συνεπώς, οι προκλήσεις των επομένων 5-10 ετών θα είναι οι «συμβιβασμοί» μεταξύ των τριών πτυχών που σας ανέφερα νωρίτερα.
Η ακατάπαυστη επιθυμία μας για πολλούς και γρήγορους υπολογισμούς (είτε στα κέντρα δεδομένων και τους υπερυπολογιστές είτε στα κινητά μας τηλέφωνα και τα λάπτοπ) θα συνεχίσει να συγκρούεται με την ανάγκη να εξορθολογήσουμε το ενεργειακό αποτύπωμα της υπολογιστικής (είναι άραγε εφικτός ένας τέτοιος εξορθολογισμός;) αλλά και την επιταγή οι υπολογισμοί μας, από τους οποίους εξαρτάται πλέον κυριολεκτικά η ζωή μας, να είναι πάντα σωστοί και όχι «σιωπηλά» λανθασμένοι.
Σε πρόσφατο κείμενό μου για τα silent errors σε blog σχετικά με θέματα αρχιτεκτονικής υπολογιστών, ο David Patterson βραβευμένος με το Turing Award (το Nobel της Πληροφορικής) σχολίασε ότι το πρόβλημα των silent errors είναι ιδιαίτερα σημαντικό.
Τόνισε μάλιστα τη βαρύτητα του προβλήματος σε συστήματα στο υπολογιστικό νέφος που «εκπαιδεύουν» μεγάλα μοντέλα τεχνητής νοημοσύνης (όπως τα μεγάλα γλωσσικά μοντέλα) εκτελώντας υπολογισμούς για ολόκληρες εβδομάδες και χρησιμοποιώντας δεκάδες χιλιάδες τσιπ για τον σκοπό αυτό.
Παρά τη δαπάνη σε κόστος χρήσης των μηχανών, τη δαπάνη σε ενέργεια, και τη δαπάνη σε ανθρώπινους πόρους (προγραμματιστών και μηχανικών υπολογιστών) αν το 1 από τα 1000 αυτά τσιπ παράγει «σιωπηλά» σφάλματα, πόσο εύκολα δέχεται κανείς την ορθότητα του μοντέλου τεχνητής νοημοσύνης που τελικά παράγεται; Δεν ακούγεται ως μεγάλη πρόκληση αυτό;
Ο κ. Δημήτρης Γκιζόπουλος θα βρεθεί στη σκηνή του TEDxAthens Conference 2024 που πραγματοποιείται για 15η χρονιά στις 5 Οκτωβρίου 2024 στην Πειραιώς 260.