pdf 텍스트 추출 ocr 프로그램 이용하기
개인적으로는 사용할 일이 없지만 거래처에 문서를 보내거나 받을때 요즘에는 워드나 엑셀 문서를 원본 그대로 보내지 않고 pdf 로 변환 하여 보내게 됩니다. 이유는 해당 프로그램이 없을때 크롬 이나 뷰어 프로그램이 있어면 어디서든 간편하게 볼 수가 있기 때문입니다.
그리고 요즘에는 다양한 프로그램들이 나와 있지만 pdf 문서의 내용을 수정을 하거나 복사를 하는 것이 어려웠었는데요. 지금은 조금은 쉽게 할 수가 있습니다.
pdf 문서 내에 있는 글자 즉 텍스트를 추출을 할 수 있는 프로그램을 OCR 프로그램이라고 부르는데요. PDF 문서 뿐만이 아니라 이미지나 사진에 있는 글자들을 추출 할 수가 있습니다.
위 그림에서 보이듯이 RETIA 라고 하는 사이트 인데요. 아래쪽에 링크를 걸어드리도록 하겠습니다. 해당 사이트에서 PDF 텍스트 추출 을 진행 할 수 있으실 겁니다.
retia 사이트 바로가기 이쪽으로 들어가시면 되시는데요. 메인 화면에서 우측 상단에 있는 메뉴 들 중에 서비스 > rose 문자인식 으로 이동을 합니다.
그런 다음에 무료OCR 서비스 이용하기를 클릭 하시면 됩니다. 사용방법은 아래쪽에 나온느 대로 진행을 하시면 되시는데요. 크게 어렵지 않습니다.
무료로 이용을 할 수 있습니다만 위 세가지 중 한가지로 로그인을 하셔야 하시는데요. 별도의 회원가입 없이 네이버나 페이스북 그리고 구글 아이디로 로그인을 하시면 이용이 가능 합니다.
오늘 포스팅 주제대로 pdf 텍스트 추출 을 하기 위해서 ocr 프로그램인 retia 를 이용하고 계십니다. 하지만 앞서 설명드린대로 pdf 파일 뿐만 아니라 이미지 파일 역시 가능한데요. 해당 사이트에서는 pdf, jpg, png, bmp, tif 파일에 대해서 이용을 할 수가 있습니다.
하지만 암호화된 pdf 파일의 경우와 수기로 작성한 글자의 경우에는 정상적으로 텍스트 추출을 할 수 없을 수도 있어요.
변환할 이미지나 pdf 파일을 이미지 선택 부분을 눌러서 찾아주시면 됩니다. 그리고 한국어 영어를 선택을 하시고 동의함을 누른 이후에 진행을 하시면 됩니다. 이후에는 이메일 주소를 입력하고 이것을 변환을 하고 어떤 문서의 형식으로 사용할 건지 선택 하시면 됩니다. 기본값은 MS 워드로 되어 있네요.
그럼 위와 같은 정보들이 나오게 되고 문서변환 버튼을 누르시게 되면 여러분게서 입력한 메일 주소로 추출된 문서를 받을 수 있게 되실 거예요.
하루에 총 9회 까지 pdf 텍스트 추출 을 진행 할 수 있으니 부담없이 이용해주시면 됩니다. 하지만 완벽하게 안될 수도 있기 때문에 결과를 꼭 확인해 봐주시고 비슷한 프로그램으로는 알pdf 등이 있으니 참고하시면 좋을거 같아요~