한국국학진흥원(원장 정종섭)은 한국지능정보사회진흥원(NIA, 원장 문용식)의 지원을 받아 ㈜누리 IDT, ㈜NHN다이퀘스트, ㈜에프아이솔루션과 함께 고서 속의 한자를 자동 인식할 수 있는 시스템 개발을 진행하여, 1차년도 사업을 완료했다.
유교책판의 활자를 영인한 고서의 한자 인식률 70%를 목표로 시작했던 1차 사업은 현재 약 80%의 정확도로 문자를 인식하는 수준에 이르렀고, 이후 지속적 개발을 통해 정확도를 올릴 예정이다. 이 결과는 현재 최종 품질 검증을 거쳐 AI-Hub(http://www.aihub.or.kr)를 통해 공개될 예정이다.
이번 '한자 인식 OCR 인공지능 모델 개발'은 인공지능(AI)이 가진 딥러닝(Deep Learnimg) 기술이 적극 차용되었다. 고서 속에 비교적 정자체로 기록된 한자의 다양한 이미지를 컴퓨터 텍스트 기호인 유니코드로 인식하도록 학습시키는 데이터셋을 구축함으로써, 스캔이나 촬영 등을 통해 이미지가 확보된 한자를 텍스트로 인식하여 변환할 수 있도록 했다. 이를 위해 고서 전체 이미지에서 한 글자 한 글자를 잘라내고(세그멘테이션), 그 글자 이미지를 텍스트로 인식할 수 있도록 치환하는 기술들이 적용되었다.
특히 이 사업이 본 궤도에 오르면 일반 사용자들이 유적지 등을 방문했을 때 한자로 기록된 현판이나 문서들을 이미지로 촬영하여 한자의 뜻과 의미를 확인할 수 있게 될 것이며, 또 한자 텍스트를 기반으로 개발 중인 자동 번역 시스템과 연계할 때 한국 고전 번역에 획기적인 속도를 기대할 수 있다.
한국국학진흥원 정종섭 원장은"산적해있는 고서들을 활용하기 위한 첫단계가 디지털화 작업인데, 이번 1년차 사업만으로도 디지털화 속도가 몇 배 이상 빨라졌다"며"향후 이 결과물이 일반인들이 실생활에서 활용할 수 있는 서비스까지 이어질 수 있도록 노력하겠다"고 밝혔다.