icon zoom-in

Μεγέθυνση κειμένου

Α Α Α

Τα αποτελέσματα είναι εντυπωσιακά και ξεπερνούν όλα τα προηγούμενα εργαλεία που χρησιμοποιούν παραγωγική Τεχνητή Νοημοσύνη για την παραγωγή ρεαλιστικών deepfakes

Η Microsoft παρουσίασε το ερευνητικό πρόγραμμα VASA-1, το οποίο μπορεί να λάβει μια απλή εικόνα και ένα ηχητικό κλιπ και με τη βοήθεια της AI να το μετατρέψει σε ένα υψηλής ποιότητας βίντεο ενός ομιλούντος κεφαλιού που μοιάζει τρομακτικά με το πραγματικό.

Προς το παρόν πρόκειται απλώς για ένα ερευνητικό έργο, που σημαίνει ότι δεν είναι άμεσα προσβάσιμο, αλλά αυτό δεν το κάνει λιγότερο ανησυχητικό.

Υπάρχουν αθώα παραδείγματα με το VASA-1, όπως η ενσωμάτωση της Μόνα Λίζα με τις ραπ ικανότητες της Anne Hathaway, αλλά εγείρονται μεγάλα ερωτήματα και ανησυχίες από την πιθανότητα να χρησιμοποιηθεί για τη δημιουργία deepfakes με πιο κακόβουλο σκοπό, όπως για παράδειγμα η διάδοση παραπληροφόρησης ή η κλοπή ταυτότητας.

Μια απλή συνταγή

Η Microsoft εξηγεί ότι απλά ανεβάζεις μια εικόνα και μια ηχογράφηση και το VASA-1 σού επιστρέφει ένα βίντεο ανάλυσης 512 x 512 με έως και 40 fps και σχεδόν καθόλου καθυστέρηση.

Κοιτάζοντας το αποτέλεσμα, το VASA-1 κάνει πειστική δουλειά συγχρονίζοντας τον ήχο με τις κινήσεις των χειλιών και μπορεί ακόμη και να αποδώσει εκφράσεις μέσω λεπτών κινήσεων του προσώπου με τα φρύδια και τα νεύματα του κεφαλιού.

Για να πιο τέλειο αποτέλεσμα, το VASA-1 σού επιτρέπει να ελέγχεις πού κοιτάζει το δημιουργούμενο avatar, πόσο κοντά είναι το μοντέλο και το συναίσθημα που θέλεις να μεταδώσεις. Μπορείς να επιλέξεις μια τυπική ουδέτερη έκφραση ή να δώσεις λίγη χαρά, θυμό ή έκπληξη στο βίντεο που δημιουργεί η Τεχνητή Νοημοσύνη.

Σε μια πιο μη ρεαλιστική σημείωση, το VASA-1 μπορεί επίσης να χειριστεί υλικό όπως πίνακες ζωγραφικής ή ήχο τραγουδιού. Όσο πειστικά και αν είναι όλα αυτά τα μοντέλα, μπορούμε ακόμα να δούμε μικρές παρατυπίες, όπως κάποιο κυματισμό γύρω από τα αυτιά ή ένα αφύσικο εφέ παραμόρφωσης με μεγάλες κινήσεις του κεφαλιού.

Μια γεύση από την Version 1

Όπως υποδηλώνει το όνομα, το VASA-1 είναι μόνο το πρώτο μοντέλο για το συνολικό πλαίσιο VASA της Microsoft, πράγμα που σημαίνει ότι θα μπορούσε να βελτιωθεί.

Αυτά τα αρχικά βίντεο-παραδείγματα που δημιουργούνται από το VASA-1 είναι μόνο επιδείξεις των δυνατοτήτων του ερευνητικού έργου μέχρι στιγμής, οπότε και πάλι, δεν υπάρχουν ακόμη σχέδια να προωθηθεί αυτό στα χέρια του κοινού.

«Δεν σχεδιάζουμε να κυκλοφορήσουμε ένα online demo, API, προϊόν, πρόσθετες λεπτομέρειες υλοποίησης ή οποιεσδήποτε σχετικές προσφορές μέχρι να είμαστε σίγουροι ότι η τεχνολογία θα χρησιμοποιηθεί υπεύθυνα και σύμφωνα με τους κατάλληλους κανονισμούς», σημειώνει η Microsoft στην ιστοσελίδα της.

Όσο ανησυχητική και αν είναι αυτή η τεχνολογία και η Microsoft αναγνωρίζει την πιθανότητα κακής χρήσης της, η ερευνητική ομάδα υποστηρίζει ότι υπάρχουν πολλά θετικά στοιχεία εδώ.

Για παράδειγμα, το VASA-1 θα μπορούσε να χρησιμοποιηθεί για να διασφαλίσει ότι όλοι θα έχουν ίσες ευκαιρίες στην εκπαίδευση, να βοηθήσει όσους έχουν προβλήματα επικοινωνίας ή ακόμα και να προσφέρει απλώς ένα φιλικό πρόσωπο σε όσους το χρειάζονται.

Με πληροφορίες από inverse