Υποθέσεις

Επικοινωνήστε μαζί μας

lilinchun@sztungwing.com

86-0755-28791270

Επικοινωνήστε τώρα

Εφαρμογή μοντέλων βαθιάς μάθησης στην αναγνώριση ήχου

2022-09-10

Η εφαρμογή των μοντέλων βαθιάς μάθησης στην αναγνώριση ήχου έχει σχηματίσει ένα ολοκληρωμένο τεχνικό πλαίσιο.Πολλαπλό σενάριο εξόρυξης χαρακτηριστικών ήχου και σημασιολογικής κατανόησης μέσω end-to-end μάθησηςΟι ακόλουθες είναι οι βασικές τεχνικές κατευθύνσεις εφαρμογής και οι τυπικές αρχιτεκτονικές μοντέλων:

1. Ακουστική Εξόρυξη Χαρακτηριστικών

Βελτιστοποίηση της ανάλυσης χρόνου-συχνοτήτων

Χρησιμοποιώντας τα CNN για την αυτόματη εκμάθηση τοπικών χαρακτηριστικών (όπως η αρμονική δομή και οι σχηματιστές) από τα μελ-σπεκτρογράμματα, αντικαθιστώντας την παραδοσιακή χειροκίνητη μηχανική χαρακτηριστικών που χρησιμοποιεί MFCC,Αυτή η προσέγγιση βελτιώνει την ακρίβεια της ταξινόμησης κατά 27% σε θορυβώδη περιβάλλοντα στο σύνολο δεδομένων UrbanSound8K.
Ελαφριά μοντέλα όπως το MobileNetV3, χρησιμοποιώντας διαχωρίσιμες με βάθος στροφές και μονάδες προσοχής PSA, επιτυγχάνουν 100% ακρίβεια αναγνώρισης ήχου πουλιών με μόνο 2,6M παραμέτρους.

Βελτιωμένη μοντελοποίηση χρονικών σειρών

Η υβριδική αρχιτεκτονική CRNN (CNN + BiLSTM) καταγράφει ταυτόχρονα τα φασματικά χαρακτηριστικά και τις χρονικές εξαρτήσεις των ηχητικών γεγονότων, επιτυγχάνοντας βαθμολογία F1 92.3% για την ανίχνευση ξαφνικών συμβάντων, όπως σπάσιμο γυαλιού.
Ο μετασχηματιστής χρησιμοποιεί έναν μηχανισμό αυτοεστίασης για την επεξεργασία μακρών ηχητικών ακολουθιών, επιτυγχάνοντας πάνω από 99% ακρίβεια στην ταξινόμηση των κλαψουριών των βρεφών για πείνα και πόνο.

ΙΙ. Ειδικά σενάρια εφαρμογής

Περιοχές εφαρμογής	Τεχνικές λύσεις	Μετρήσεις απόδοσης
Παρακολούθηση της υγείας των κατοικίδιων ζώων	Σύστημα ανάλυσης συναισθημάτων φωνής με βάση το RNN, που υποστηρίζει την ταξινόμηση περισσότερων από 10 τύπων φωνής
Έξυπνη ασφάλεια σπιτιού	Ανίχνευση ανώμαλου ήχου από άκρο σε άκρο με τη χρήση CNN+CTC	Αρνητικότητα απόκρισης < 200 ms
Ιατρική βοήθεια διάγνωση	Μεταφορά μάθησης Voiceprint μοντέλο (π.χ., Urbansound αρχιτεκτονική) για την αναγνώριση παθολογικού βήχα	Η AUC 0.98

III. Τεχνολογικές ανακαλύψεις αιχμής

Πολυτροπική σύντηξη: Η κοινή εκπαίδευση του οπτικού μοντέλου YOLOv8 και του ηχητικού δικτύου LSTM αναλύει ταυτόχρονα τις κινήσεις του βρέφους και τη συχνότητα κλάματος, μειώνοντας τα ψευδώς θετικά με 38%.
Ελαφριά χρήση: Τσιπάκια όπως το WT2605A ενσωματώνουν μηχανές συμπεράσματος DNN, μειώνοντας την κατανάλωση ενέργειας της μονάδας αναγνώρισης φωνητικών αποτυπωμάτων σε 15mW.

(Σημείωση: Οι αριθμοί αναφοράς στον πίνακα αναφέρονται εκτός του πίνακα.)

Πληροφορίες ειδήσεων

Σχετικά με εμάς