مخفف OCR
Optical Character Recognition
38
تشخیص نوری نویسهها که با سرواژهی OCR شناخته میشود، عبارت است از بازشناسی خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر سند غالبا توسط روبشگر و یا دوربین دیجیتال تولید میشود و شامل تعدادی پیکسل با رنگهای مختلف و سطوح روشنایی گوناگون است. از دید انسان، یک سند ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعهای از پیکسلها هستند. برای اینکه بتوان از اطلاعات نوشتاری تصویر سند استفاده کرد، باید به نحوی نوشتههای موجود در سند را بازشناسی کرد. چنین کاری توسط نرمافزارهای نویسهخوان نوری انجام میشود.
واژهٔ OCR ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. پسوند نوری در این عبارت در مقابل عبارت مرکب مغناطیسی قرار داده شد تا این روش را از روش قدیمیتر بازشناسی نویسهها با مرکب مغناطیسی∗ ،MICR، متمایز کند. با گذشت زمان و پیشرفت قابل توجه در این زمینه، روشهای بازشناسی دستنوشته و متون چاپی مطرح شدند که دامنهٔ کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روشها و تا حدی برای بازشناسی دستنوشتههای برخط∗ هم استفاده شد و رواج پیدا کرد. هماکنون OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتابها، مجلهها و نامههای چاپی به کار میبرند.
ارسال نظرواژهٔ OCR ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. پسوند نوری در این عبارت در مقابل عبارت مرکب مغناطیسی قرار داده شد تا این روش را از روش قدیمیتر بازشناسی نویسهها با مرکب مغناطیسی∗ ،MICR، متمایز کند. با گذشت زمان و پیشرفت قابل توجه در این زمینه، روشهای بازشناسی دستنوشته و متون چاپی مطرح شدند که دامنهٔ کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روشها و تا حدی برای بازشناسی دستنوشتههای برخط∗ هم استفاده شد و رواج پیدا کرد. هماکنون OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتابها، مجلهها و نامههای چاپی به کار میبرند.