Μεγέθυνση κειμένου
Τα αποτελέσματα είναι εντυπωσιακά και ξεπερνούν όλα τα προηγούμενα εργαλεία που χρησιμοποιούν παραγωγική Τεχνητή Νοημοσύνη για την παραγωγή ρεαλιστικών deepfakes
Η Microsoft παρουσίασε το ερευνητικό πρόγραμμα VASA-1, το οποίο μπορεί να λάβει μια απλή εικόνα και ένα ηχητικό κλιπ και με τη βοήθεια της AI να το μετατρέψει σε ένα υψηλής ποιότητας βίντεο ενός ομιλούντος κεφαλιού που μοιάζει τρομακτικά με το πραγματικό.
Προς το παρόν πρόκειται απλώς για ένα ερευνητικό έργο, που σημαίνει ότι δεν είναι άμεσα προσβάσιμο, αλλά αυτό δεν το κάνει λιγότερο ανησυχητικό.
Υπάρχουν αθώα παραδείγματα με το VASA-1, όπως η ενσωμάτωση της Μόνα Λίζα με τις ραπ ικανότητες της Anne Hathaway, αλλά εγείρονται μεγάλα ερωτήματα και ανησυχίες από την πιθανότητα να χρησιμοποιηθεί για τη δημιουργία deepfakes με πιο κακόβουλο σκοπό, όπως για παράδειγμα η διάδοση παραπληροφόρησης ή η κλοπή ταυτότητας.
Microsoft just dropped VASA-1.
— Min Choi (@minchoi) April 18, 2024
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
Μια απλή συνταγή
Η Microsoft εξηγεί ότι απλά ανεβάζεις μια εικόνα και μια ηχογράφηση και το VASA-1 σού επιστρέφει ένα βίντεο ανάλυσης 512 x 512 με έως και 40 fps και σχεδόν καθόλου καθυστέρηση.
Κοιτάζοντας το αποτέλεσμα, το VASA-1 κάνει πειστική δουλειά συγχρονίζοντας τον ήχο με τις κινήσεις των χειλιών και μπορεί ακόμη και να αποδώσει εκφράσεις μέσω λεπτών κινήσεων του προσώπου με τα φρύδια και τα νεύματα του κεφαλιού.
2. Realism and liveliness – example 1 pic.twitter.com/Kz0Bm2NRNy
— Min Choi (@minchoi) April 18, 2024
Για να πιο τέλειο αποτέλεσμα, το VASA-1 σού επιτρέπει να ελέγχεις πού κοιτάζει το δημιουργούμενο avatar, πόσο κοντά είναι το μοντέλο και το συναίσθημα που θέλεις να μεταδώσεις. Μπορείς να επιλέξεις μια τυπική ουδέτερη έκφραση ή να δώσεις λίγη χαρά, θυμό ή έκπληξη στο βίντεο που δημιουργεί η Τεχνητή Νοημοσύνη.
3. Realism and liveliness – example 2 pic.twitter.com/7nVrTtDUmM
— Min Choi (@minchoi) April 18, 2024
Σε μια πιο μη ρεαλιστική σημείωση, το VASA-1 μπορεί επίσης να χειριστεί υλικό όπως πίνακες ζωγραφικής ή ήχο τραγουδιού. Όσο πειστικά και αν είναι όλα αυτά τα μοντέλα, μπορούμε ακόμα να δούμε μικρές παρατυπίες, όπως κάποιο κυματισμό γύρω από τα αυτιά ή ένα αφύσικο εφέ παραμόρφωσης με μεγάλες κινήσεις του κεφαλιού.
6. Controllability of generation 2
— Min Choi (@minchoi) April 18, 2024
Example of different emotion offsets pic.twitter.com/vusoSAPgb4
Μια γεύση από την Version 1
Όπως υποδηλώνει το όνομα, το VASA-1 είναι μόνο το πρώτο μοντέλο για το συνολικό πλαίσιο VASA της Microsoft, πράγμα που σημαίνει ότι θα μπορούσε να βελτιωθεί.
Αυτά τα αρχικά βίντεο-παραδείγματα που δημιουργούνται από το VASA-1 είναι μόνο επιδείξεις των δυνατοτήτων του ερευνητικού έργου μέχρι στιγμής, οπότε και πάλι, δεν υπάρχουν ακόμη σχέδια να προωθηθεί αυτό στα χέρια του κοινού.
7. Power of disentanglement
— Min Choi (@minchoi) April 18, 2024
Example of same motion sequence with different photos pic.twitter.com/MSLFobwJTx
«Δεν σχεδιάζουμε να κυκλοφορήσουμε ένα online demo, API, προϊόν, πρόσθετες λεπτομέρειες υλοποίησης ή οποιεσδήποτε σχετικές προσφορές μέχρι να είμαστε σίγουροι ότι η τεχνολογία θα χρησιμοποιηθεί υπεύθυνα και σύμφωνα με τους κατάλληλους κανονισμούς», σημειώνει η Microsoft στην ιστοσελίδα της.
Όσο ανησυχητική και αν είναι αυτή η τεχνολογία και η Microsoft αναγνωρίζει την πιθανότητα κακής χρήσης της, η ερευνητική ομάδα υποστηρίζει ότι υπάρχουν πολλά θετικά στοιχεία εδώ.
Για παράδειγμα, το VASA-1 θα μπορούσε να χρησιμοποιηθεί για να διασφαλίσει ότι όλοι θα έχουν ίσες ευκαιρίες στην εκπαίδευση, να βοηθήσει όσους έχουν προβλήματα επικοινωνίας ή ακόμα και να προσφέρει απλώς ένα φιλικό πρόσωπο σε όσους το χρειάζονται.
Με πληροφορίες από inverse
Ακολουθήστε το pride.gr στο Google News και ενημερωθείτε πρώτοι