מַדָע

מה זה ocr? »הגדרתו ומשמעותו

Anonim

OCR הם אלה של זיהוי תווים אופטי או המכונים בספרדית גם זיהוי תווים אופטי. OCR היא תוכנה המאפשרת זיהוי טקסטים, המייצרת תמונה שלה כדי להפוך אותה לרצף של תווים, ואז לשמור אותם בפורמט נתון שיכול לשמש באותן תוכניות עריכת טקסט. במילים אחרות, הודות לטכנולוגיה חדשה זו, ניתן להמיר כל סוג של טקסט או מסמך, כולל קבצי PDF, ניירות סרוקים או אפילו תמונות שנלקחו ממצלמות דיגיטליות, לנתונים על מנת לקבל אפשרות לערוך אותם.

תוכנה זו פועלת באופן הבא, תחילה היא מנתחת כל חלק בתמונת המסמך המדובר; להפיץ את הדף בחלקים כמו טבלאות, תמונות, גושי טקסט בין היתר; ואז השורות מופצות במילים כדי להפוך אחר כך לדמויות; ומכיוון שהדמויות כבר צוינו, התוכנה עורכת את ההשוואה עם קבוצת תמונות של התבנית. זה מתקדם על פי סדרת ההשערות לגבי מהי כל דמות; ועל סמך השערות אלה הוא מנתח את הגרסאות השונות של שבירת שורות למילים ומילים לדמויות. וזה לאחר מספר רב של ניתוחים ועיבודים של ההשערות, כי התוכנית מציגה סוף סוף את הטקסט שכבר הוכר והופך בפורמט חדש..

יש לציין כי כיום קיימות מספר תוכניות ששוק המחשבים מציע על בסיס OCR כמו OmniPage, Abbyy Fine Reader או READiris. YY שיש להם את היכולת, לא רק לנתח ולהכיר טקסט ככזה, אלא גם לזהות את הפורמט והסגנון, אך עם מגבלות מסוימות, ובכך לדרוש שהטקסט לאחר ניתוחו יערוך כדי לבצע את ההתאמות שהם לִדרוֹשׁ.