מד רעש - השג הבנה עמוקה יותר של דיכוי רעש
לאחר הבנת ההבדלים הבסיסיים בין דיכוי רעש (דיכוי רעש סביבתי של רמקול כדי שמאזינים מרוחקים ישמעו בבירור) לבין הפחתת רעש אקטיבית (קיזוז הרעש הסביבתי של המאזין עצמו), בואו נתמקד כיצד להשיג דיכוי רעש.
שיטה אחת היא להשתמש במספר מיקרופונים כדי לדכא נתונים. איסוף נתונים ממספר מיקומים יגרום לכך שמכשירים יקבלו אותות דומים (אך עדיין מובחנים). האות הקולי המתקבל על ידי המיקרופון ליד האוכלוסייה הדוברת חזק משמעותית מזה של המיקרופון המשני. שני מיקרופונים יקבלו צליל רקע לא קולי עם עוצמת אות דומה. הפחיתו את מידע הצליל שנאסף על ידי המיקרופון הקול החזק והמיקרופון המשני, והרוב הנותר הוא המידע הקולי. ככל שהמרחק בין מיקרופונים גדול יותר, כך גדל הבדל האותות בין מיקרופונים קרובים למיקרופונים רחוקים יותר, מה שמקל על השימוש באלגוריתם הפשוט הזה כדי לדכא רעש. עם זאת, כאשר אתה לא מדבר, או כאשר אתה מצפה שנתוני קול ישתנו עם הזמן (כגון כשאתה הולך או רץ, והטלפון שלך ממשיך לרעוד), היעילות של שיטה זו תפחת. דיכוי רעשי מיקרופון רב הוא בהחלט אמין, אבל יש חסרונות לחומרה ולעיבוד נוספים.
אז מה אם היה רק מיקרופון אחד? אם לא נעשה שימוש במקורות קול נוספים לצורך אימות/השוואה, פתרון מיקרופון יחיד יסתמך על הבנת מאפייני הרעש המתקבל וסינונם. זה קשור להגדרות שהוזכרו לעיל של רעש במצב יציב ולא נייח. ניתן לסנן רעש במצב יציב ביעילות באמצעות אלגוריתמי DSP, בעוד שרעש לא נייח מהווה אתגר, רשתות עצביות עמוקות (DNNs) יכולות לעזור לפתור את הבעיה.
שיטה זו דורשת מערך נתונים לאימון הרשת. מערך נתונים זה מורכב מרעש שונה (במצב יציב ולא נייח) ודיבור ברור, ויוצרים דפוס דיבור רועש מסונתז. הזן את מערך הנתונים כקלט ל-DNN ופלט אותו בקול ברור. זה ייצור מודל של רשת עצבית שיבטל רעש ויוציא רק דיבור ברור.
אפילו עם DNNs מאומנים, עדיין יש כמה אתגרים ואינדיקטורים שיש לקחת בחשבון. אם אתה רוצה לרוץ בזמן אמת עם חביון נמוך, אתה צריך כוח עיבוד חזק או DNN קטן יותר. ככל שיש יותר פרמטרים ב-DNN, כך מהירות הריצה שלו נמוכה יותר. לקצב דגימת השמע יש השפעה דומה על דיכוי הקול. קצב דגימה גבוה יותר אומר ש-DNN צריך להתמודד עם יותר פרמטרים, אבל בתורו, הוא ישיג פלט באיכות גבוהה יותר. תקשורת קולית Narrowband היא בחירה אידיאלית לדיכוי רעשים בזמן אמת.
סוג זה של עיבוד הוא כולו משימות אינטנסיביות, ומחשוב ענן מיומן מאוד בהשלמת משימות כאלה, אך שיטה זו מגדילה משמעותית את השהיה. בהתחשב בכך שבני אדם יכולים להבחין באופן מהימן בין עיכובים של כ-108 מילישניות או יותר, העיכוב הנוסף שנגרם על ידי עיבוד מחשוב ענן אינו תוצאה אידיאלית. עם זאת, הפעלת DNN על הקצה דורשת כמה התאמות חכמות. CEVA תמיד מחויבת לשפר את יכולות עיבוד הקול והדיבור שלנו. זה כולל אלגוריתמים מאושרים של בהירות דיבור וזיהוי פקודות - אלגוריתמים אלו מספקים תקשורת ברורה ושליטה קולית גם בקצוות. מוזמנים ליצור איתנו קשר ולהקשיב באופן אישי.
