מרכיבים: יחידת הניתוח הלשוני

יחידת הניתוח הלשוני מקבלת כקלט טקסט עברי לא מנוקד והופך אותו לרשימת פונמות. תהליך ההסבה לפונמות נעשה במסלול הבא:

  • עבור כל מילה אפשרית נעשית פרישה של אפשרויות הקריאה השונות (למשל שַבְתָה, שֶבַּתֵּה, שָבָּתָהּ, שֶבִּתָה, שִבְתָהּ, שֹבְתָהּ וכו')

  • הפעלתם של חוקים דקדוקיים מאפשרת פסילה של חלק מאפשרויות הקריאה (למשל במקרה של קלט 'האיש החזק' נפסלת הקריאה 'הָאִיש הָחֹזֶק' מכיוון שאינה חוקית - אין שרשור של שני שמות עצם מיודעים.

  • על מטריצת הקריאות יש להריץ עתה תהליך סטטיסטי המשתמש במודל HMM (ראשי תבות של Hidden Markov Model). התהליך "לומד" את ההסתברויות של הופעת מילים בשרשור מתוך קורפוס מתוייג מראש, ובוחר את הקריאה הסבירה ביותר לפי חוקים אלו.

  • במצב העניינים הנוכחי אהרון עדיין משתמש ביחידות הניתוח ובניית הפרוזודיה של תוכנה ותיקה הנקראת סתיו. תוכנה זו אינה משתמשת במודל סטטיסטי או בסמנטיקה אך מגיעה לאחוזי הבנה סבירים בהחלט.
    בימים אלה אנו שוקדים על פיתוחה של יחידת ניתוח חדשה שצפויה להגיע לאחוזים הגבוהים ביותר האפשריים. פיתוחה של יחידת הפרוזודיה החדשה מתוכנן גם הוא לחודשים הקרובים.
aharon
מרכיבים - המשך ארכיטקטורה
All rights reserved @ www.aharontts.co.il צרו קשר