icon zoom-in

Μεγέθυνση κειμένου

Α Α Α

Ένα σύστημα αναγνώρισης ομιλίας βοηθά τα άτομα με προβλήματα να επικοινωνήσουν καλύτερα με τους ανθρώπους, αλλά και με την ίδια την τεχνολογία

Πιθανότατα έχετε βιώσει την απογοήτευση και τον εκνευρισμό όταν κάποιο έξυπνο ηχείο ή ένας βοηθός τεχνητής νοημοσύνης δεν καταλαβαίνει σωστά αυτό που του λέτε. Για τα άτομα με μη τυπικό τρόπο ομιλίας, αυτό μπορεί να συμβαίνει σχεδόν σε κάθε αλληλεπίδραση με αυτού του είδους τις τεχνολογίες.

Μια εταιρεία με έδρα το Ισραήλ, η Voiceitt, στοχεύει να αλλάξει αυτή την κατάσταση. Χρησιμοποιώντας εξατομικευμένα φωνητικά μοντέλα, το σύστημα αναγνώρισης ομιλίας που διαθέτει και το οποίο λειτουργεί με τη βοήθεια τεχνητής νοημοσύνης, βοηθά άτομα με προβλήματα ομιλίας, που προκαλούνται από παθήσεις όπως εγκεφαλική παράλυση, Πάρκινσον, σύνδρομο Down ή εγκεφαλικό επεισόδιο, να επικοινωνούν πιο αποτελεσματικά τόσο με άλλους ανθρώπους όσο και με ψηφιακές συσκευές.

Για την συνιδρύτρια της Voiceitt, Σάρα Σμόλεϊ, η διευκόλυνση της αναγνώρισης ομιλίας για μη τυπικά μοτίβα ομιλίας αποτελεί προσωπική αποστολή.

«Η γιαγιά μου διαγνώστηκε με πρώιμη μορφή της νόσου του Πάρκινσον», είπε. «Όταν γεννήθηκα, είχε χάσει το μεγαλύτερο μέρος των κινητικών της ικανοτήτων και η ομιλία της είχε επηρεαστεί».

Η Voiceitt ξεκίνησε ως εφαρμογή το 2021 και λειτουργούσε ως απλός φωνητικός μεταφραστής, μετατρέποντας τη μη τυπική ομιλία σε ηχητική απόδοση. Η τεχνητή νοημοσύνη εκπαιδεύεται από τον χρήστη, ο οποίος καταγράφει τον εαυτό του να λέει περίπου 200 απλές φράσεις.

Η Σμόλεϊ ανέφερε ότι η αρχική ιδέα ήταν να διευκολύνουν την επικοινωνία πρόσωπο με πρόσωπο, αλλά πλέον η τεχνολογία έχει προσαρμοστεί και για τους εργαζόμενους εξ αποστάσεως.

Η Voiceitt έχει αναπτύξει ενσωματώσεις με το WebEx και το ChatGPT, καθώς και ένα πρόσθετο του Google Chrome, τα οποία μετατρέπουν τη μη τυπική ομιλία σε υπότιτλους που εμφανίζονται στην οθόνη. Η εταιρεία συνεργάζεται επίσης με το Zoom και το Microsoft Teams.

«Κάτι που μου έκανε ιδιαίτερη εντύπωση ήταν η σημασία της τεχνολογίας προσβασιμότητας στον εργασιακό χώρο», σημείωσε η Σμόλεϊ. «Ό,τι ήταν μια ράμπα για αναπηρικά αμαξίδια στα χθεσινά κτίρια γραφείων, είναι η Voiceitt για τους σημερινούς εξ αποστάσεως χώρους εργασίας», είπε.

Το λογισμικό πωλείται είτε με βάση τα λεπτά χρήσης είτε ανά χρήστη, με τιμές που κυμαίνονται από 20 έως 50 δολάρια. Οι άδειες μπορούν να αγοραστούν μαζικά για εργασιακούς χώρους, καθώς και για εκπαιδευτικά ή υγειονομικά ιδρύματα.

«Οι άνθρωποι χρησιμοποιούν το Voiceitt όχι μόνο για τηλεδιασκέψεις, αλλά και για τη συγγραφή εγγράφων, email, δημοσιεύσεις στο LinkedIn και πρόσβαση σε προγράμματα περιήγησης μέσω φωνητικών εντολών», εξήγησε η Σμόλεϊ. «Αυτό έχει ανοίξει τον ψηφιακό κόσμο για άτομα που προηγουμένως μπορεί να μην είχαν θεωρηθεί κατάλληλοι για ορισμένες θέσεις εργασίας ή δεν μπορούσαν να επικοινωνήσουν με συναδέλφους ή πελάτες».

«Ο τομέας χρειάζεται μια ανατροπή»

Μεταξύ των χρηστών της Voiceitt είναι και ο Κόλιν Χιουζ, πρώην παραγωγός του BBC και νυν υπέρμαχος της προσβασιμότητας. Ζώντας με μυϊκή δυστροφία, ο Χιουζ βασίζεται στην υπαγόρευση για τις ψηφιακές του αλληλεπιδράσεις, γεγονός που τον καθιστά ιδιαίτερα ενήμερο για τις δυνατότητες και τους περιορισμούς των υφιστάμενων τεχνολογιών. Ο Χιουζ έχει χρησιμοποιήσει το Voiceitt για να συντάξει email και να υπαγορεύσει μακροσκελή κείμενα.

«Βρήκα την εφαρμογή της Voiceitt εξαιρετικά ακριβή με την ομιλία μου, και η διαδικασία εκπαίδευσης και εγκατάστασης ήταν απλή», δήλωσε, αν και παρατήρησε κρίσιμα κενά για τους επαγγελματίες χρήστες. «Πολλά άτομα με προβλήματα ομιλίας και αναπηρίες στα άνω άκρα χρειάζονται περισσότερα από απλή μετατροπή ομιλίας σε κείμενο», σημείωσε.

Υποστηρίζει ότι θα πρέπει να προστεθούν λειτουργίες όπως η φωνητική κίνηση του δείκτη του ποντικιού και η βελτιωμένη αναγνώριση υπαγόρευσης για τη σύνταξη μακροσκελών κειμένων, επισημαίνοντας ότι το Voiceitt λειτουργεί καλύτερα για μηνύματα μικρής έκτασης.

Ο Χιουζ τονίζει την ανάγκη για πιο ολοκληρωμένη τεχνολογία αναγνώρισης ομιλίας, η οποία θα επιτρέπει στους χρήστες να διαχειρίζονται email και να μορφοποιούν έγγραφα με τη φωνή τους.
Βλέπει ένα μέλλον όπου η τεχνολογία θα παίζει μεγαλύτερο ρόλο στην προσβασιμότητα, προσθέτοντας: «Αυτός ο τομέας χρειάζεται μια ανατροπή. Η Voiceitt, με καλύτερη πρόσβαση σε μεγάλες πλατφόρμες, θα μπορούσε να είναι εκείνη που θα ηγηθεί αυτής της αλλαγής».

Ένα προσβάσιμο μέλλον

Σύμφωνα με τη Σμόλεϊ, έχει σημειωθεί σημαντική πρόοδος στην τεχνολογία αναγνώρισης ομιλίας τα τελευταία χρόνια.

Ένα παράδειγμα είναι το Πρόγραμμα Προσβασιμότητας Ομιλίας, ένα ερευνητικό έργο που καθοδηγείται από το Ινστιτούτο Beckman για Προηγμένη Επιστήμη και Τεχνολογία του Πανεπιστημίου του Ιλινόις, το οποίο συλλέγει δεδομένα φωνής από άτομα με διάφορες παθήσεις για να δημιουργήσει αλγορίθμους που θα υποστηρίζουν άτομα με μη τυπική ομιλία.

Νωρίτερα φέτος, η Apple κυκλοφόρησε τη λειτουργία τεχνητής νοημοσύνης «Αναγνώριση Άτυπης Ομιλίας», η οποία χρησιμοποιεί τη μηχανική μάθηση για την αναγνώριση ευρύτερου φάσματος μοτίβων ομιλίας.

Με την τεχνολογία που καταγράφει και αποθηκεύει προσωπικά δεδομένα, όπως φωνητικές ηχογραφήσεις, η ιδιωτικότητα μπορεί να αποτελεί ζήτημα για τους χρήστες. Η Σμόλεϊ δηλώνει ότι η εταιρεία της συμμορφώνεται με τους κανονισμούς της Ευρωπαϊκής Ένωσης, τους οποίους θεωρεί «τα υψηλότερα πρότυπα στον κόσμο όσον αφορά την προστασία δεδομένων».

«Αν τα δεδομένα του χρήστη διατηρούνται στη βάση δεδομένων μας με τη συγκατάθεσή του, είναι ανωνυμοποιημένα και αποταυτοποιημένα και χρησιμοποιούνται για να ενισχύσουν τη συλλογή των δεδομένων μας και να βελτιώσουν τον αλγόριθμό μας», προσθέτει.

Πιστεύει ότι η τεχνολογία της Voiceitt μπορεί να αλλάξει ζωές. «Θέλουμε να επιτρέψουμε στους ανθρώπους όχι μόνο να είναι πιο ανεξάρτητοι στην καθημερινή τους ζωή και στη δουλειά τους», λέει η Σμόλεϊ, «αλλά και να απολαμβάνουν την τεχνολογία και να διασκεδάζουν».

Με πληροφορίες από CNN