DEX

CONSULTING

1. OCR

OCR (Optical character recognition 광학 문자 인식)으로 문서 스캔, 송장, 청구서, 재무 보고서 등 비정형 데이터를 인식합니다. 이를 데이터로 인식하거나 혹은(엑셀, 워드 등)로 변환하는 Software입니다. Microsoft OCR 기술은 한국어를 포함한 122개 언어로 인쇄된 텍스트 추출을 지원합니다.

OCR 정의.PNG

2. OCR 필요성

OCR은 전달받은 다양한 청구 서류들을 수작업으로 분류하지 않고 자동으로 분류를 합니다. 또한 필요한 정보를 쉽고 빠르게 접근할 수 있습니다. 그리고 전달받은 다양한 전표들을 해당하는 템플릿에 맞게 분류하고, 분류된 문서 내 검출/인식된 정보들을 사내 시스템과 연계하여 활용이 가능합니다.

기술 필요성.PNG

3. OCR 기술 성숙도

OCR 기술은 현재 보편적이고 안정적인 서비스 단계에 접어들었습니다.

기술 성숙도.PNG
 
 
 

4. Microsoft OCR 특성

OCR 은 Microsoft의 Power Automate에 사용이 됩니다. Power Automate의 자동화 엔진은 OCR로 화면을 인식해 업무를 반복하는 매크로 방식이 아닌 행동 자체를 분석해 작동하기 때문에 화면 해상도나 이미지 변화에 큰 영향을 받지 않습니다. 또한  Power Platform의 다른 기능과 연계를 할 수 있어 Power APPs에 봇을 추가하거나 Power APPs로 개발한 애플리케이션에서 원격으로 Power Automate를 사용할 수 있는 연계 협업 기능이 강력합니다. 추가로 Power Automate는 Power Platform 중 다운로드 수, 이용자 수가 높고 빠른 도입 성장세를 갖고 있는 제품입니다.

 

5. Microsoft OCR 구조

  • Power Apps에서 미리 학습된 모델이며, 명함 정보를 자동으로 처리하는 것에 특화됐습니다.

  • 학습된 모델(Pre-Trained)은 영어 중심입니다.

Power APPs

Pre-Trained​

AI 빌더

Power Automate Flow

​명함 판독기

송장 처리

영수증 처리

텍스트 처리

ID 문서 판독기

사용자 커스텀

Computer Vison

(Read API)

Training

Computer Vision​

Tesseract OCR

Window OCR

Power Automate Desktop

Computer Vision

From Recognizer

광학 인식

​명함 판독기

송장 처리

영수증 처리

텍스트 처리

ID 문서 판독기

사용자 커스텀

Pre-Trained​

General

Training

6. OCR 프로세스

DEX Consulting은 PoC, 교육, 자동화 및 테스트, 개발 및 운영까지 전 RPA 영역에 대한 서비스를 제공합니다.

ocr 캡1.PNG
ocr 캡 2.PNG
 
 
 

 8. DEX OCR 서비스 특징

  • ​정확한 데이터 추출

OCR (Optical Character Recognition, 광학 문자 인식)은  이미지(사진) 속 글자 위치를 찾고 어떤 글자인지 자동으로 알아내는 기술입니다. OCR은 다양한 형태의 글자를 이해하기 위해 독자적인 글자 영역 검출 및 인식 기술을 보유하고 있습니다. 또한 손쉽게 템플릿을 만들고 원하는 영역을 지정한 뒤, 필요한 글자만 빠르게 추출하는 기능을 제공합니다.

  • ​차별화된 모델

OCR 서비스는 네이버의 AI 기술을 활용하여 주요 비즈니스 활용에 최적화된 고성능 OCR 인식 모델을 적용하였습니다. OCR 모델은 기본적인 성능을 제공하는 베이직 모델과 더욱 향상된 인식률을 제공하는 프리미엄 모델 (필기체 인식, 체크박스 등 포함)이 제공됩니다. 문자 인식이 제공되는 언어는 한국어, 영어, 일본어이며, 필기체 인식은 한국어와 일본어가 지원됩니다.

  • 문서 처리 자동화

직접 손으로 분류하던 문서들을 OCR 서비스를 사용할 경우 등록된 템플릿과의 유사도를 통해 자동 분류가 가능합니다. 사용자의 개입 없이 문서 분류가 가능하여 효과적인 업무 워크플로우(Workflow) 설계가 가능합니다.

  • 인식 후 액션 연동

OCR 서비스는 인식된 텍스트의 값을 검증할 수 있어 반복 검증 업무를 줄이고 신뢰도를 높일 수 있습니다. 또한 Papago 서비스 등 다른 서비스와 연계하여 고객에게 차별화된 서비스를 제공할 수 있습니다.

7.  DEX OCR 방법론

구글, 네이버, MS OCR와 DEX add-on module을 결합하여 보다 정확한 산출물을 얻을 수 있으며, ​활용성이 높은 엑셀 형태로 데이터를 다운로드 할 수 있어 End-user의 편의성 확대 가능합니다.

OCR Engine

DEX add-on module (OCR Portal)

​사용자 이관

​안정화

​정보 출력

Text 검증

OCR 추출

​문서 양식 학습

  • 대상문서에 대한 추출 영역 정의​

  • 해당 문서의 종류 및 pattern 분석​

  • 해당 문서 학습

  • Template Classification​

  • Pre-process​

  • Area Detection​

  • Text Recognition​

  • Text Extraction

  • 기존 축적 정보 Searching​

  • OCR 결과값과 축적 값 Matching​

  • 결과값 검증

  • 사용자 요청 Format으로 전환​

  • DB 또는 Excel 등으로 출력

  • 테스트​

  • Eye Checking Test​

  • 사용자 교육​

  • 시스템 이관​

덱스 방법론 1.PNG
방법 3.PNG
방법 2.PNG
9. OCR 글로벌 사례
dex_1440.jpg
 
 

 10. DEX Consulting OCR

  • OCR 추출의 정확성 및 데이터 활용 편의성을 높인 OCR Portal을 운영 중입니다.

  • DEX의 OCR Portal의 현재 정확도는 75%이며 프로젝트 내에 80% 이상 수준으로 달성했습니다.

  • Naver OCR을 통해 추출된 정보를 추가 검증하고, 추출 정보 활용성을 높이기 위한 목적으로 적용​했습니다.

  • 전 성분을 OCR 로 텍스트화 시킨 후 누락, 추가 여부, 성분 비율을 로직으로 구성했습니다.

  • 전성분을 OCR로 텍스트화 시킨 후 전성분의 적합성 여부 판단 및 추천 등을 수행했습니다.