OCR என்பது ஆப்டிகல் கேரக்டர் அங்கீகாரம் அல்லது ஸ்பானிஷ் மொழியில் ஆப்டிகல் கேரக்டர் ரெக்னிகேஷன் என்றும் அழைக்கப்படுகிறது. OCR என்பது ஒரு மென்பொருளாகும், இது உரை அங்கீகாரத்தை செயல்படுத்துகிறது, அதன் படத்தை அடுத்தடுத்து எழுத்துக்களாக மாற்றும், பின்னர் அவற்றை அந்த உரை எடிட்டிங் நிரல்களில் பயன்படுத்தக்கூடிய ஒரு குறிப்பிட்ட வடிவத்தில் சேமிக்கிறது. வேறு வார்த்தைகளில் கூறுவதானால், இந்த புதிய தொழில்நுட்பத்திற்கு நன்றி, PDF கோப்புகள், ஸ்கேன் செய்யப்பட்ட காகிதங்கள் அல்லது டிஜிட்டல் கேமராக்களிலிருந்து எடுக்கப்பட்ட படங்கள் உள்ளிட்ட எந்தவொரு உரை அல்லது ஆவணமும் திருத்தப்படுவதற்கான வாய்ப்பைப் பெறுவதற்காக தரவுகளாக மாற்றலாம்.
இந்த மென்பொருள் பின்வருமாறு செயல்படுகிறது, முதலில் இது கேள்விக்குரிய ஆவணத்தின் படத்தின் ஒவ்வொரு பகுதியையும் பகுப்பாய்வு செய்கிறது; அட்டவணைகள், படங்கள், உரை தொகுதிகள் போன்ற பகுதிகளாக பக்கத்தை விநியோகிக்கவும்; பின்னர் எழுத்துக்கள் சொற்களாக விநியோகிக்கப்படுகின்றன; எழுத்துக்கள் ஏற்கனவே சுட்டிக்காட்டப்பட்டிருப்பதால், மென்பொருளானது வடிவத்தின் படங்களின் குழுவோடு ஒப்பிடுகிறது. ஒவ்வொரு கதாபாத்திரமும் என்ன என்பது பற்றிய கருதுகோள்களின் வரிசையின் படி இது முன்னேறுகிறது; இந்த கருதுகோள்களின் அடிப்படையில், வரிகளை சொற்களாகவும் சொற்களை எழுத்துக்களாகவும் உடைக்கும் வெவ்வேறு வகைகளை இது பகுப்பாய்வு செய்கிறது. கருதுகோள்களின் அதிக எண்ணிக்கையிலான பகுப்பாய்வு மற்றும் செயலாக்கத்திற்குப் பிறகுதான், நிரல் இறுதியாக ஏற்கனவே அங்கீகரிக்கப்பட்ட மற்றும் புதிய வடிவத்துடன் மாற்றப்பட்ட உரையை முன்வைக்கிறது.
ஓம்னிபேஜ், அப்பி ஃபைன் ரீடர் அல்லது READiris போன்ற OCR ஐ அடிப்படையாகக் கொண்ட கணினி சந்தை வழங்கும் பல திட்டங்கள் இன்று உள்ளன என்பதை கவனத்தில் கொள்ள வேண்டும். திறனைக் கொண்ட YY, ஒரு உரையை பகுப்பாய்வு செய்வதற்கும் அங்கீகரிப்பதற்கும் மட்டுமல்லாமல் , வடிவத்தையும் பாணியையும் அங்கீகரிப்பதோடு மட்டுமல்லாமல், சில வரம்புகளுடன், உரை பகுப்பாய்வு செய்யப்பட்ட பின்னர், திருத்தங்களைச் செய்ய திருத்தப்பட வேண்டும் தேவை.