ΗΠΑ: Η τεχνητή νοημοσύνη αποτυγχάνει και στις πιο απλές εργασίες διοίκησης νοσοκομείων

Καταχώριση εισαγωγών ασθενών, έλεγχος στοιχείων, διαχείριση κλινών, τιμολόγηση, προγραμματισμός ραντεβού, διαχείριση εργαστηρίων, πόρων και προσωπικού: η λίστα των καθημερινών διοικητικών εργασιών ενός νοσοκομείου είναι τεράστια και μέχρι σήμερα απαιτεί σημαντικό χρόνο και εξειδικευμένη υποστήριξη πληροφορικής.

Θα μπορούσαν τα σύγχρονα μοντέλα τεχνητής νοημοσύνης, τα λεγόμενα Large Language Models (LLM), να επιταχύνουν αυτές τις διαδικασίες και να λειτουργήσουν ως εύχρηστα εργαλεία διοίκησης μέσω φυσικής γλώσσας;

Αμερικανοί ερευνητές δοκίμασαν εννέα από τα ισχυρότερα διαθέσιμα μοντέλα και διαπίστωσαν ότι δυσκολεύονται ακόμη και σε πολύ απλές εργασίες.

Η εικόνα αλλάζει μόνο όταν τα μοντέλα καθοδηγούνται να χρησιμοποιήσουν έναν κλασικό, ντετερμινιστικό τρόπο επεξεργασίας, δηλαδή εκτελέσιμο κώδικα σε γλώσσα Python, τον οποίο τα ίδια παράγουν για να πραγματοποιήσουν τις απαραίτητες υπολογιστικές λειτουργίες.

Ως υλικό δοκιμών χρησιμοποιήθηκαν πραγματικά δεδομένα ασθενών από τα επείγοντα περιστατικά επτά νοσοκομείων του συστήματος Mount Sinai Health System στη Νέα Υόρκη. Από αυτά επιλέχθηκαν 50.000 πλήρη αρχεία ασθενών και δημιουργήθηκαν πίνακες διαφορετικής πολυπλοκότητας, με μεταβαλλόμενο αριθμό στηλών και γραμμών.

Όταν τα μοντέλα λάμβαναν απλές ερωτήσεις, όπως "Πόσοι άνδρες ασθενείς από αυτόν τον πίνακα εισήχθησαν για νοσηλεία;", οι απαντήσεις τους ήταν συστηματικά ανακριβείς.

Ακόμη και όταν ζητήθηκε από τα συστήματα να εξηγήσουν βήμα προς βήμα τον τρόπο σκέψης τους, η βελτίωση ήταν περιορισμένη και εξαφανιζόταν όσο αυξανόταν το μέγεθος των πινάκων.

Το GPT-4o, που αποδείχθηκε το πιο αποτελεσματικό μοντέλο της μελέτης, πέτυχε ακρίβεια περίπου 95% στους απλούστερους πίνακες, αλλά μόλις 60% στους μεγαλύτερους. Με άλλα λόγια, έως και τέσσερις στις δέκα απαντήσεις ήταν λανθασμένες.

Σε δεύτερη φάση, οι ερευνητές ζήτησαν από τα μοντέλα να μετατρέπουν τις ερωτήσεις σε κώδικα Python και να εκτελούν μέσω αυτού τις απαραίτητες αναζητήσεις και υπολογισμούς στους πίνακες δεδομένων.

Τότε η απόδοσή τους βελτιώθηκε θεαματικά. Τα ισχυρότερα μοντέλα, όπως το GPT-4o και το Qwen-2.5-72B, έφτασαν σχεδόν σε τέλεια ακρίβεια.

"Τα αποτελέσματά μας δείχνουν ότι τα LLM από μόνα τους – χωρίς υποστήριξη εργαλείων – δεν είναι κατάλληλα για ακόμη και τις πιο απλές διοικητικές εργασίες σε κλινικά περιβάλλοντα", σημείωσε ο ειδικός σε θέματα βιοπληροφορικής, Benjamin Glicksberg, από το Mount Sinai Health System.

Η μελέτη καταδεικνύει ότι ο πιθανοκρατικός τρόπος λειτουργίας των μοντέλων τεχνητής νοημοσύνης, που βασίζεται στην αναγνώριση προτύπων και πιθανοτήτων, δεν αρκεί για εργασίες που απαιτούν απόλυτη ακρίβεια.

Για αξιόπιστα αποτελέσματα απαιτούνται ντετερμινιστικά εργαλεία — δηλαδή λογισμικό και αλγόριθμοι που εκτελούν μαθηματικές πράξεις με σταθερό και επαναλήψιμο τρόπο, παράγοντας πάντα το ίδιο σωστό αποτέλεσμα όταν λαμβάνουν τα ίδια δεδομένα.

Με άλλα λόγια, το μέλλον της κλινικής τεχνητής νοημοσύνης φαίνεται να βρίσκεται όχι στην αντικατάσταση των παραδοσιακών συστημάτων, αλλά στη συνεργασία τους με τα γλωσσικά μοντέλα: η AI θα λειτουργεί ως "έξυπνη διεπαφή" επικοινωνίας, ενώ οι πραγματικοί υπολογισμοί θα συνεχίσουν να γίνονται από κλασικό λογισμικό και βάσεις δεδομένων.

Προσθέστε το iatronet.gr στο Discover

Ειδήσεις υγείας σήμερα
Πώς ορμόνη που συνδέεται με την άσκηση μειώνει συμπτώματα της πολλαπλής σκλήρυνσης [μελέτη]
Πώς αντιλαμβανόμαστε ότι η φωνή προέρχεται από μηχανή και όχι από άνθρωπο (μελέτη)
Φορετό επίθεμα υπερήχων θα μπορούσε να βελτιώσει την παρακολούθηση κυήσεων υψηλού κινδύνου