Σε διάφορα άρθρα μας σχετικά με την Τεχνητή Νοημοσύνη έχουμε εκθειάσει την βοήθειά της στην καθημερινή μας ζωή. Σε κάποια άλλα έχουμε παρουσιάσει διασκεδαστικές εφαρμογές όπως το DALL-E. Υπάρχουν όμως και κάποιες εφαρμογές A.I. που μάλλον τρομάζουν, όπως το πρόγραμμα VALL-E που μιμείται ανθρώπινες φωνές.

Το VALL-E ξεπήδησε από τα εργαστήρια της Microsoft. Πού είναι το ανησυχητικό; Η εφαρμογή μπορεί να μιμηθεί οποιαδήποτε ανθρώπινη φωνή, αρκεί να έχει ένα δείγμα 3 δευτερολέπτων. Ναι, αρκούν μόλις 3 δευτερόλεπτα για να μπορέσει να «μιλήσει» επιτυχώς σαν τον άνθρωπο του οποίου τη φωνή έχουμε ηχογραφήσει!

VALL-E

Πώς λειτουργεί;

Το VALL-E ανήκει στην κατηγορία των αποκαλούμενων «συνθετητές φωνής».  Μια τεχνολογία που δεν είναι νέα, αφού ο μαθηματικός Leonhard Euler που έθεσε τα θεμέλια για αυτήν τον 18ο αιώνα. Έκτοτε υπήρξαν διάφορες προσπάθειες σημειώνοντας θεαματική πρόοδο.

Λίγο πολύ όλοι έχουμε συναντήσει κάπου αντίστοιχα παραδείγματα. Από ταινίες επιστημονικής φαντασίας μέχρι τα συστήματα αυτοματοποιημένης επικοινωνίας σε κέντρα εξυπηρέτησης πελατών. Ωστόσο, λίγοι φανταζόντουσαν πού θα μπορούσε να φτάσει η εν λόγω τεχνολογία με το VALL-E.

Έχοντας ως κύριο σύμμαχο την τεχνητή νοημοσύνη και πιο συγκεκριμένα τα συστήματα deep learning, οι μηχανές εκπαιδεύονται να παράγουν γλώσσα βασισμένη σε ένα τεράστιο ρεπερτόριο ηχογραφήσεων, συνοδευόμενες από γραπτά κείμενα. Χάρη σε αυτόν τον τεράστιο όγκο πληροφοριών, η λεγόμενη «νευρωνική» σύνθεση ομιλίας πλησιάζει ολοένα και περισσότερο τον τρόπο ομιλίας μας, σε σημείο που γίνεται όλο και πιο δύσκολο να διακρίνουμε το τεχνητό από το φυσικό.

VALL-E

Πού διαφέρει το VALL-E ;

Το VALL-E χρησιμοποιεί μια διαφορετική μέθοδο, καθώς στόχος του δεν είναι απλώς να παράγει ήχο από κείμενο, αλλά να το κάνει μιμούμενος τη φωνή μας. Για αυτό, το σύστημα deep learning τροφοδοτήθηκε με 60.000 ώρες ηχογραφήσεων στα αγγλικά, από 7.000 διαφορετικές φωνές και συνοδευόμενες από το κείμενό τους. Το αποτέλεσμα είναι να μπορεί να εντοπίζει και να εξάγει διακριτά συστατικά, είδη στοιχειωδών μπλοκ, που ονομάζονται tokens.

Θα το παρομοιάζαμε με τον τρόπο που ένα παιδί μαθαίνει να απομονώνει νέες λέξεις ακούγοντας τους ενήλικες να μιλάνε. Μόνο που στην περίπτωση του VALL-E τα διακριτικά που προσδιορίζει κόβονται σε πολύ μικρότερη κλίμακα και είναι πιο ακριβή.  Ηχογραφούνται με τη μορφή ενός κώδικα που μπορεί, με τη σειρά του, να αναπαραχθεί σε ήχο.

Στη μελέτη, οι ερευνητές παρέχουν ένα νέο δείγμα φωνής στο VALL-E, καθώς και ένα κείμενο που πρέπει να διαβάσει μιμούμενος αυτή τη φωνή. Το σύστημα θα αναλύσει τη νέα εγγραφή και θα την κόψει σε tokens. Θα κάνει το ίδιο και για το γραπτό κείμενο. Στη συνέχεια θα προσπαθήσει να τα προσαρτήσει στα tokens που έχει ήδη στη βιβλιοθήκη του.  Προσδιορίζοντας τα μοτίβα που φέρνουν τη νέα ηχογράφηση πιο κοντά σε εκείνα που έχει ήδη μελετήσει, θα μπορέσει να επεκτείνει τον τρόπο με τον οποίο ο ομιλητής θα εκφραζόταν σε κάθε είδους περιβάλλοντα!

Εντυπωσιακό; Σίγουρα. Επικίνδυνο; Απόλυτα.

Οποιαδήποτε τεχνολογία από μόνη της σαφώς δεν είναι επικίνδυνη. Η χρήση που κάνουμε θα φέρει θεμιτά ή αθέμιτα αποτελέσματα. Και προφανώς ένα εργαλείο σαν το VALL-E  μπορεί πολύ εύκολα να χρησιμοποιηθεί για περίεργους σκοπούς…

Για του λόγου το αληθές, οι πρώτοι που εξέφρασαν τις ανησυχίες τους ήταν οι ίδιοι οι δημιουργοί του VALL-E !  Στο τέλος της μελέτης τους, οι ερευνητές γράφουν: «Επειδή το VALL-E είναι σε θέση να συνθέσει ομιλία που διατηρεί την ταυτότητα του ομιλητή, το μοντέλο ενέχει πιθανούς κινδύνους κακής χρήσης, όπως η εξαπάτηση της αναγνώρισης ομιλίας ή η παραπλάνηση της ταυτότητας ενός συγκεκριμένου ομιλητή. Για να περιορίσει αυτούς τους κινδύνους, η ομάδα επέλεξε επομένως να μην κοινοποιήσει δημόσια τον κωδικό VALL-E».

Μάλιστα, επισημαίνουν την ανάγκη δημιουργίας ενός μοντέλου ανίχνευσης που θα είναι σε θέση να επισημαίνει κάθε τεχνητά παραγόμενο ήχο από τη σύνθεση ομιλίας. Κι όχι άδικα, αφού την περασμένη χρονιά Ρώσοι κωμικοί κατάφεραν να κάνουν μια συνομιλία 7 λεπτών με τον Πολωνό πρόεδρο προσποιούμενοι τον Εμμανουέλ Μακρόν, όταν ένας πύραυλος μόλις είχε εκραγεί στα ουκρανικά σύνορα. Η κακή μίμηση της γαλλικής προφοράς τους έκανε να αποκαλυφθούν.

Ένα εργαλείο όπως το VALL-E θα μπορούσε να γίνει ένα επικίνδυνο όπλο στα χέρια αυτών των απατεώνων, σε ένα πολιτικό πλαίσιο που είναι τουλάχιστον αβέβαιο.

 

-----------
Κάποιες από τις αναρτήσεις μας μπορεί να περιέχουν συνδέσμους συνεργατών. Το Gizchina Greece μπορεί να λαμβάνει ένα μικρό ποσοστό, εάν κάνετε κλικ σε έναν σύνδεσμο και αγοράσετε κάποιο προιόν. Αν θέλετε περισσότερες λεπτομέρειες, εδώ μπορείτε να μάθετε πώς χρησιμοποιούμε τους συνδέσμους συνεργατών. Σας ευχαριστούμε για την υποστήριξη!


-----------

Ακολουθήστε το Gizchina Greece στο Google News για να μαθαίνετε πρώτοι και άμεσα, όλα τα τεχνολογικά νέα! Αν ψάχνετε HOT προσφορές, κάντε εγγραφή στο κανάλι μας στο Telegram!


[Πηγή] :