Επιστήμονες του Oxford University δημιούργησαν ένα σύστημα τεχνητής νοημοσύνης που τα καταφέρνει καλύτερα στο διάβασμα χειλιών από τους ανθρώπους.
Το σύστημα, που «εκπαιδεύτηκε» πάνω σε χιλιάδες ώρες προγραμμάτων του BBC News, αναπτύχθηκε σε συνεργασία με την DeepMind της Google. Το όνομά του, όπως αναφέρει το BBC, είναι «Watch, Attend and Spell» και μπορεί να παρακολουθεί έναν άνθρωπο να μιλά, χωρίς ήχο, και να μαντεύει σωστά το 50% των λέξεων, ποσοστό που είναι ιδιαίτερα υψηλό αν σκεφτεί κανείς πως, στα ίδια βίντεο, επαγγελματίες στο διάβασμα χειλιών «έπιασαν» μόλις το 12% σωστά.
Ο Τζουν Σον Τσουνγκ, διδακτορικός του Τμήματος Μηχανολογίας του Oxford University, εξήγησε στο BBC για πόσο δύσκολη δουλειά πρόκειται: «Λέξεις όπως mat, bat και pat έχουν παρόμοια σχήματα στόματος».
«Αυτό που κάνει το σύστημα είναι να μαθαίνει τα πράγματα τα οποία πάνε μαζί, σε αυτή την περίπτωση τα σχήματα του στόματος και τους χαρακτήρες, και τους πιθανούς επόμενους χαρακτήρες».
Το BBC παρείχε στους ερευνητές βίντεο με υποτίτλους χρονισμένους με μεγάλη ακρίβεια. Μετά, ένα «δίκτυο νευρώνων», σε συνδυασμό με εξελιγμένες τεχνολογίες αναγνώρισης εικόνας και ομιλίας αναλαμβάνει να εκπαιδευτεί στο διάβασμα χειλιών. Μετά από την εξέταση 118.000 προτάσεων στα κλιπ, το σύστημα έχει πλέον 17.500 λέξεις αποθηκευμένες στο λεξιλόγιό του, είναι είναι ικανό να αντιλαμβάνεται πως πχ το Prime συνοδεύεται συχνά από το Minister, το European από το Union κ.α. Ωστόσο, υπάρχουν ακόμα πολλά περιθώρια βελτίωσης, καθώς προς το παρόν μπορεί να λειτουργεί μόνο με πλήρεις, ολοκληρωμένες προτάσεις σε βίντεο.
«Θέλουμε να το κάνουμε να λειτουργεί σε πραγματικό χρόνο» λέει ο Τζον Σον Τσουνγκ. «Καθώς συνεχίζει να βλέπει τηλεόραση, θα μαθαίνει», σημειώνει, συμπληρώνοντας πως υπάρχουν πολλές δυνατές χρήσεις για μια τέτοια τεχνολογία, από την υπαγόρευση οδηγιών σε smartphones από τους κατόχους τους σε θορυβώδη περιβάλλοντα, μέχρι το dubbing παλαιών ταινιών βωβού κινηματογράφου κ.α.
naftemporiki.gr
Το σύστημα, που «εκπαιδεύτηκε» πάνω σε χιλιάδες ώρες προγραμμάτων του BBC News, αναπτύχθηκε σε συνεργασία με την DeepMind της Google. Το όνομά του, όπως αναφέρει το BBC, είναι «Watch, Attend and Spell» και μπορεί να παρακολουθεί έναν άνθρωπο να μιλά, χωρίς ήχο, και να μαντεύει σωστά το 50% των λέξεων, ποσοστό που είναι ιδιαίτερα υψηλό αν σκεφτεί κανείς πως, στα ίδια βίντεο, επαγγελματίες στο διάβασμα χειλιών «έπιασαν» μόλις το 12% σωστά.
Ο Τζουν Σον Τσουνγκ, διδακτορικός του Τμήματος Μηχανολογίας του Oxford University, εξήγησε στο BBC για πόσο δύσκολη δουλειά πρόκειται: «Λέξεις όπως mat, bat και pat έχουν παρόμοια σχήματα στόματος».
«Αυτό που κάνει το σύστημα είναι να μαθαίνει τα πράγματα τα οποία πάνε μαζί, σε αυτή την περίπτωση τα σχήματα του στόματος και τους χαρακτήρες, και τους πιθανούς επόμενους χαρακτήρες».
Το BBC παρείχε στους ερευνητές βίντεο με υποτίτλους χρονισμένους με μεγάλη ακρίβεια. Μετά, ένα «δίκτυο νευρώνων», σε συνδυασμό με εξελιγμένες τεχνολογίες αναγνώρισης εικόνας και ομιλίας αναλαμβάνει να εκπαιδευτεί στο διάβασμα χειλιών. Μετά από την εξέταση 118.000 προτάσεων στα κλιπ, το σύστημα έχει πλέον 17.500 λέξεις αποθηκευμένες στο λεξιλόγιό του, είναι είναι ικανό να αντιλαμβάνεται πως πχ το Prime συνοδεύεται συχνά από το Minister, το European από το Union κ.α. Ωστόσο, υπάρχουν ακόμα πολλά περιθώρια βελτίωσης, καθώς προς το παρόν μπορεί να λειτουργεί μόνο με πλήρεις, ολοκληρωμένες προτάσεις σε βίντεο.
«Θέλουμε να το κάνουμε να λειτουργεί σε πραγματικό χρόνο» λέει ο Τζον Σον Τσουνγκ. «Καθώς συνεχίζει να βλέπει τηλεόραση, θα μαθαίνει», σημειώνει, συμπληρώνοντας πως υπάρχουν πολλές δυνατές χρήσεις για μια τέτοια τεχνολογία, από την υπαγόρευση οδηγιών σε smartphones από τους κατόχους τους σε θορυβώδη περιβάλλοντα, μέχρι το dubbing παλαιών ταινιών βωβού κινηματογράφου κ.α.
naftemporiki.gr