테크

스케너 문자인식기능(OCR) 이용해 보셨나요?

뽕다르 2008. 5. 6. 00:28

요즘 프린터를 비롯해서 스케너, 복합기 보급형이 10만원대에서 출시 되고 있습니다. 예전 컴퓨터 하나만 사기도 벅차던 시절에는 프린터까지 있던 집은 찾기 힘들었죠. 하지만 요즘은 대부분 컴퓨터를 구입하면서 복합기나 프린터를 구입하고 있습니다.

사용자 삽입 이미지

캐논 보급형 복합기 픽스마 MX318


이런 전자 제품을 구입하면 많은 번들 소프트웨어가 제공됩니다. 복합기 하나만  구입해도 수 많은 번들 소프르웨어가 제공되죠. 그중에서 OCR(광학문자인식)이라는 번들 소프트웨어에 대해서 알아 보겠습니다.


OCR(광학 문자 인식)기능이 뭘까?

광학식 문자판독기. 컴퓨터 등에서 데이타의 입력작업을 간편화하기 위한 장치. 손으로 쓴 문자나 인쇄된 문자를 직접 독해할 수 있다. OCR는 바코드(bar code)와는 달리 문자를 직접 입력할 수 있기 때문에 입력작업을 더욱 간소화할 수 있다. OCR는 문자의 패턴을 가는 블록으로 분리해서 각 블록의 농담을 0과 1의 부호로 바꾸어 광학적으로 독해한다. 숫자나 알파벳 등을 독해하는 것에서부터 한자의 독해에 이르기까지 실용화되어 있다. 손으로 쓰는 문자나 임의의 인쇄문자 등은 독해의 착오가 발생하기 쉽기 때문에 POS 시스템에서는 JIS규격으로 정한 OCR-B폰트문자를 OCR 표준치 표로 사용하고 있다.  -네이버 용어사전

현제 영문OCR기능은 다양한 소프트웨어가 나와있고 또 인식율도 상당히 높습니다. 하지만 한글에 있어서는 아직 소프트웨어도 많이 없고 인식률도 좋은편이 아니라고 합니다. 잘 알려진 프로그램으로는 '아르미'라는 프로그램이 있습니다. 하지만 상용프로그램이라서 구입을 해야 합니다. 무료 소프트웨어는 아직 없습니다.

요즘 스팸메일을 검색하는데 OCR기능이 많이 사용되는 추세라고 합니다. 단순히 글로 스펨메일을 보냈을때 간단히 문자 필터를 통해서 막을 수 있지만, 요즘 광고는 대부분 이미지로 만들어지기 때문에 이 OCR기능을 이용해서 광고인지 아닌지를 판별한다고 하는군요.

대부분의 복합기나 스케너를 사면 이 OCR이라는 기능이 번들 프로그램으로 제공됩니다.

캐논 - Presto! PageManager
HP - HP LaserJet Director
삼성 - 삼성 관리자(OCR기능)

많은 분들이 이런 스케너의 OCR기능을 잘 모르고 있기 때문에 스케너를 100%활용하지 못하고 있습니다. 그래서 캐논 Presto! PageManager을 이용안 OCR기능을 이용하는 방법을 알아 보겠습니다. 다른 스케너들도 거의 비슷한 과정을 거쳐서 문자 인식기능을 이용할 수 있습니다.


캐논  Presto! PageManager을 이용한 OCR 활용하기

먼저 시작 -  Program File - Presto! PageManager7을 실행하면 아래와 같은 같은 프로그램이 실행됩니다.

사용자 삽입 이미지

①스켄할 문서를 스케너에 넣고 스캔
   -기존 스캔 한 이미지는 뿐 아니라 그냥 이미지 파일도 역시 모두 OCR기능 적용이 가능합니다.

②위와 같이 문자 인식을 하고 싶은 이미지를 클릭합니다.
   -Presto! PageManager7은 아쉽게도 한글 인식은 지원하지 않습니다.

③아래의 NotePad나 WordPad를 클릭하면 OCR기능이 실행됩니다.
   -NotePad는 메모장으로 WordPad는 워드패드로 열리게 됩니다.

이렇게만 하면 이미지의 문자를 인식해 문자로 출력하게 됩니다. 아래 클릭하면 샘플로 사용한 스켄 이미지와 인식한 텍스트를 볼수 있습니다.

위에 샘플이미지와 텍스트를 보면 거의 100%인식 했다는것을 알 수 있습니다. 이처럼 영어에 대해서는 OCR기능의 거의 완벽하게 되고 있습니다.


OCR기능 어디에 활용하면 좋을까?

기능은 신기하고 좋은데 쓸곳이 없으면 아무런 필요가 없겠죠? 뭐 각자 이용하는 분야게 따라 많은 방법들이 있겠지만 일단 몇가지 제가 생각하는것을 정리해 봤습니다.

① 타이핑 해야하는 문서가 엄청 많을때
② 전공서적을 원서로 볼때 스켄해서 OCR로 텍스트로 변환해서 각종 사전 프로그램을 이용해 단어 뜻 찾기
③ 책 복사 하고 싶은데 복사기 없을대 디카로 찍어서 OCR이용해 텍스트로 바꾸기
④ etc

저는 ②같은 경우로 많이 쓰고 있습니다. 저 처럼 영어가 안되시는 분들은 유용하게 쓸 수 있죠 ^^; 이것 이외에도 다른 상황에서 잘만 이용한다면 정말 유용한 기능이 될 수 있을것입니다.