icon zoom-in

Μεγέθυνση κειμένου

Α Α Α

Σε έναν χώρο, οι φωνές στο παρασκήνιο μπλέκονται μεταξύ τους και κανείς δεν είναι σίγουρος για το ποιος μιλάει και τι ακριβώς λέγεται. Στην περίπτωση ενός ηχογραφημένου αρχείου, που έχει κατατεθεί ως στοιχείο σε ένα δικαστήριο, αυτό είναι τεράστιο πρόβλημα

Πόσο εύκολο είναι να βρίσκεσαι σε ένα πάρτι και να επικοινωνείς με κάποιον άλλον, προσπαθώντας να ακούσεις τι λέει και απομονώνοντας ταυτόχρονα τους γύρω ήχους και τις φωνές; Στην πραγματικότητα – αν και με δυσκολία – οι άνθρωποι είναι εξαιρετικά ικανοί στο να το κάνουν, καθώς μπορούν να φιλτράρουν τους ήχους από το περιβάλλον.

Ωστόσο, ίσως προκαλεί έκπληξη το γεγονός ότι πρόκειται για μια ικανότητα που η τεχνολογία δεν ήταν μέχρι πρόσφατα σε θέση να αναπαράγει. Αυτό αποτελούσε μεγάλο πρόβλημα όσον αφορά στη χρήση ηχητικών αποδεικτικών στοιχείων σε δικαστικές υποθέσεις.

Οι φωνές στο παρασκήνιο μπλέκονταν μεταξύ τους – καθώς και με την ηχώ τους – και κανείς δεν ήταν σίγουρος για το ποιος μιλάει και τι ακριβώς λέγεται, καθιστώντας ενδεχομένως τις ηχογραφήσεις «άχρηστες».

Ποιος διέταξε τη σφαγή αμάχων;

Ο ηλεκτρολόγος μηχανικός Keith McElveen, ιδρυτής και επικεφαλής τεχνολογίας της Wave Sciences, άρχισε να ενδιαφέρεται για το συγκεκριμένο πρόβλημα όταν εργαζόταν για την κυβέρνηση των ΗΠΑ σε μια υπόθεση εγκλημάτων πολέμου.

«Αυτό που προσπαθούσαμε να καταλάβουμε ήταν ποιος διέταξε τη σφαγή αμάχων. Κάποια από τα αποδεικτικά στοιχεία περιλάμβαναν ηχογραφήσεις με ένα σωρό φωνές που μιλούσαν όλες μαζί – τότε ήταν που έμαθα τι ήταν το “πρόβλημα του κοκτέιλ πάρτι”», αναφέρει.

Παρόλο που όλοι οι υπόλοιποι ήχοι – των ανεμιστήρων και των αυτοκινήτων – είχαν αφαιρεθεί, όσον αφορά στην ανθρώπινη ομιλία, το πρόβλημα ήταν ιδιαιτέρως μεγάλο. Τη λύση τελικά έδωσε η Τεχνητή Νοημοσύνη (ΑΙ), η οποία είναι ικανή να εντοπίζει και να διαχωρίζει τους ήχους με βάση την «χωρική» προέλευσή τους σε ένα δωμάτιο.

Αυτό δεν σημαίνει μόνο άλλους ανθρώπους που μιλούν – υπάρχει επίσης σημαντικός αριθμός παρεμβολών από τον τρόπο με τον οποίο οι ήχοι αντανακλώνται σε ένα δωμάτιο, με τη φωνή του ομιλητή-στόχου να ακούγεται τόσο άμεσα όσο και έμμεσα.

Πολλά μικρόφωνα, μεγάλο κόστος

Σε έναν τέλειο ανηχοϊκό θάλαμο – έναν θάλαμο εντελώς απαλλαγμένο από ηχώ – ένα μικρόφωνο ανά ομιλητή θα ήταν αρκετό για να καταγράψει τι λέει ο καθένας – αλλά σε ένα πραγματικό δωμάτιο, το πρόβλημα απαιτεί ένα μικρόφωνο και για κάθε άλλο ήχο.

Ο McElveen ίδρυσε την Wave Sciences το 2009, με την ελπίδα να αναπτύξει μια τεχνολογία που θα μπορούσε να διαχωρίσει τις επικαλυπτόμενες φωνές. Αρχικά η εταιρεία χρησιμοποίησε μεγάλο αριθμό μικροφώνων. Ωστόσο, το σύστημα αυτό θα απαιτούσε πάρα πολλά μικρόφωνα και πολύ μεγάλο κόστος για να δώσει καλά αποτελέσματα – σε πολλές περιπτώσεις – ενώ δεν θα απέδιδε καθόλου σε πολλές άλλες.

«Συλλαμβάνοντας» τους ήχους

Η εταιρεία έλυσε τελικά το πρόβλημα μετά από 10 χρόνια έρευνας, με εσωτερική χρηματοδότηση, και κατέθεσε αίτηση για δίπλωμα ευρεσιτεχνίας τον Σεπτέμβριο του 2019. Αυτό που επινόησαν ήταν μια Τεχνητή Νοημοσύνη που μπορεί να αναλύσει τον τρόπο με τον οποίο ο ήχος αναπηδά σε ένα δωμάτιο πριν φτάσει στο μικρόφωνο ή στο αυτί.

«Συλλαμβάνουμε τον ήχο, καθώς φτάνει σε κάθε μικρόφωνο, κάνουμε backtrack για να καταλάβουμε από πού προήλθε και στη συνέχεια, στην ουσία, καταστέλλουμε κάθε ήχο που δεν θα μπορούσε να προέλθει από το σημείο όπου κάθεται το άτομο-στόχος», λέει ο κ. McElveen.

Το αποτέλεσμα είναι – στην ουσία – σαν μια φωτογραφική μηχανή που εστιάζει σε ένα θέμα και θολώνει το φόντο. Παρόλο που οι ήχοι δεν είναι «κρυστάλλινοι», όταν σε ένα δικαστήριο μπορείς να χρησιμοποιήσεις «μόνο μια πολύ θορυβώδη ηχογράφηση», τα αποτελέσματα εξακολουθούν να είναι εκπληκτικά.

Η πρώτη χρήση σε δίκη

Η συγκεκριμένη τεχνολογία είχε την πρώτη της πραγματική εγκληματολογική χρήση σε μια υπόθεση δολοφονίας στις ΗΠΑ: Αφού συνελήφθησαν δύο εκτελεστές για τη δολοφονία ενός άνδρα, το FBI ήθελε να αποδείξει ότι είχαν προσληφθεί από μια οικογένεια που βρισκόταν σε διαμάχη για την επιμέλεια των παιδιών τους.

Παρόλο που οι τηλεφωνικές κλήσεις ήταν ξεκάθαρες, το FBI δεν μπορούσε να ξεχωρίσει τις ομιλίες που ηχογραφήθηκαν σε δύο εστιατόρια. Όμως το δικαστήριο ενέκρινε τη χρήση του αλγορίθμου της Wave Sciences, πράγμα που σημαίνει ότι ο ήχος μετατράπηκε από «απαράδεκτος» σε ένα απολύτως χρήσιμο και «κομβικό αποδεικτικό στοιχείο».

Έκτοτε, άλλα κυβερνητικά εργαστήρια, μεταξύ άλλων και στο Ηνωμένο Βασίλειο, υπέβαλαν το σύστημα σε σειρά δοκιμών. Η εταιρεία εμπορεύεται τώρα την τεχνολογία στον αμερικανικό στρατό, ο οποίος τη χρησιμοποίησε για την ανάλυση σημάτων σόναρ.

Θα μπορούσε επίσης να έχει εφαρμογές σε διαπραγματεύσεις ομήρων και σενάρια αυτοκτονίας, λέει ο McElveen, ώστε να διασφαλίζεται ότι ακούγονται και οι δύο πλευρές μιας συνομιλίας – και όχι μόνο ο διαπραγματευτής.

Με πληροφορίες από BBC