카카오 페이지 스캔 본 만들기 - kakao peiji seukaen bon mandeulgi

모망 2021. 6. 18. 00:15

논문을 읽다 보면 종이에 인쇄해서 읽을 때도 있지만, 요즘의 나는 pdf로 공부한다. 우선 인쇄비용이 안 들고, 아이패드를 활용해야겠다는 압박감에서라도 그렇게... 열심히 읽어보는 중이다. 패드 기능을 이것저것 사용하지 않고 읽을 때는 눈에 피로감도 있었고, 강화유리 필름에 생펜슬을 쓸 때는 필기 자체가 너무 노동이어서 손과 목에 피로감이 컸었는데 이제 손을 좀 보았더니 한결 읽기 편해졌다. 나 스스로에 대한 기록과 더불어 혹시나 나처럼 준비가 하나도 안 된 상황에서 석사과정에 스스로를 내던진 분이 있다면... 조금이라도 도움이 되고자 이것저것 공부하는 방법 등을 공유해볼 생각이다. 우선 오늘은 PDF 내용물을 OCR하는 방법! 왜 하냐고? OCR을 하면 일단 편하거든요! 왜 이제야 알았냐고? ...그러게요. 지난 학기에 알았으면 정말 오조오억 배는 더 편했을 텐데ㅠㅠ...


카카오 페이지 스캔 본 만들기 - kakao peiji seukaen bon mandeulgi

알 PDF

나의 소원은 오직 OCR

어도비 pdf에서는 OCR을 Adobe Acrobat Reader에서는 지원하지 않고, Adobe Acrobat DC에서 회원가입을 하고 사용해야 그 기능을 제공한다. 솔직히 로그인하고 구독하면서까지 OCR을 쓰고 싶지는 않아서 괜찮은 '무료' OCR 프로그램을 찾아보다가 알 PDF를 설치해보았다.

한두 개만 해야하는 경우에는 Free PDF edit - 이런 이름을 달고 있는 인터넷 사이트에서 일회성으로 해도 되지만, 여러 번 아주 많이 사용할 것 같아서 그냥 프로그램을 깔아 사용해 보았다. 그리고 결과는 꽤 괜찮았다. 인식률이 100퍼센트는 아니지만 80퍼센트...? 무료 서비스라고 생각하고 사용하면 어느정도 만족스럽다.

카카오 페이지 스캔 본 만들기 - kakao peiji seukaen bon mandeulgi

약 17페이지 분량의 스캔본을 돌렸는데, 영어 인식률은 - 당연히 ocr 언어 중에 제일 개발이 잘 되어 있으니 - 90%정도로 좋았다. 모처의 온라인 pdf 변환기에서도 같은 파일을 돌렸을 때 시간이 더 오래 걸렸었고, 블록지정을 할 때 알 pdf 버전은 여백까지 인식해 모두 연결되는 반면 온라인 변환기에서는 단어와 단어만을 인식한 것인지 여백(띄어쓰기) 인식이 되지 않았다. 가독성에 민감한 나에게는 결정적인 단점이었지.

다만 특수문자 등의 인식률이 꽤 떨어지는 편이니 참고하도록 하자.

카카오 페이지 스캔 본 만들기 - kakao peiji seukaen bon mandeulgi

예쁘게 블록 설정 잘 되쥬?

수업에 필요한 논문이나 내가 읽어야 할 논문 혹은 저서, 그리고 리뷰나 에세이 등을 pdf로 볼 때 난감한 경우가 두 가지 있다. 하나는 나의 심리적인 문제로, 논문이 2단 이상의 논문일 때. 왠지모르게 가독성도 집중력도 떨어지고 읽기가 그렇게 싫더라. 한 페이지 상단에서 하단으로 다 읽었는데 다음 페이지로 넘어가지 않고 더 읽어야 할 땐 괜히 짜증이 난다... 그래도 OCR(광학글자인식) 처리가 된 것이면 다행이지만, 아닌 경우가 훨씬 많다.

나머지 하나는 교수님이 올려주는 스캔본 PDF라던가, e-book 자료가 없어서 내가 직접 도서관 등에서 스캔하여 pdf로 만든 문서를 볼 때이다. 일단 논문도 논문인데, 책을 스캔하게 되면 양쪽 페이지를 한 번에 스캔하는데다가 당연히 OCR을 넣지 않고 파일이 생성된다. 그리고 그걸 읽다 보면... 필기할 때도 귀찮고 읽다가도 괜히 한숨 나오던 게 한 두 번이 아니었다. 그래도 컴퓨터로 보면서 꾸역꾸역 읽기는 했었는데, 이번에 패드 필름을 종이질감으로 바꾼 이후로는 패드에 필기하면서 보는 속도가 훨씬 빠르다는 것을 체감했다. 내 머릿속에 정리하는 것도 쉬웠고. 역시 사람은 눈으로 읽고 손으로 쓰고 귀로 듣고 여러개를 동시에 해야 기억이 더 오래 간다는 것을 오랜만에 느꼈다.​

원본(스캔한) 파일 vs OCR 파일

아이패드에서 보았을 때 비교

카카오 페이지 스캔 본 만들기 - kakao peiji seukaen bon mandeulgi
카카오 페이지 스캔 본 만들기 - kakao peiji seukaen bon mandeulgi

하고난 후 vs 하기 전 ​

 동일한 페이지를 비교해보면, 우선 많이 깨져서 눈이 피로한 폰트가 깔끔하게 변경되었다는 것을 알 수 있다. 세리프 체는 Times New Roman1) 폰트로 인식해서 변환하는 것 같다. 프랑스어/독일어를 추가옵션에 넣어서 그런 건지는 모르겠지만 일단 프랑스어 글자 인식(특히 악쌍)도 꽤 잘 되어 있고, 문장부호들도 누락 없이 구성되었다. 뒷장들을 확인해보니 독일어도 꽤 인식율이 좋았다. 다만 이 페이지에서 유일한 흠을 (굳이) 꼽자면 밑에서 4번째 줄에 있는 큰따옴표의 서식인데, 여는 따옴표는 일반 스타일인데 반해 닫는 건 예쁘게 닫히는 - 내가 좋아하는 - 따옴표다. 예민보스... ㅎ.... 둘 다 예쁜 따옴표로 인식해주면 안돼?!?! (배부른 소리)

일단 OCR 자체를 추가 요금 없이 뜰 수 있는 게 큰 장점이긴 하지만, 단점을 꼽는다면 인식률, 특히 주석에 대한 인식률이 다소 떨어진다는 점이 있다. 주석을 잘 인식할 때도 있지만 뜬금없이 y로 인식해두는 것도 있긴 하다만 그리 큰 걸림돌은 아니다. 그래서 정확도에서 0.1퍼센트를 뺐다. 그리고 어떤 전공분야에서든 전공 내에서 통하는 '전문용어'나 사전에서도 잘 찾기 힘든 합성어, 혹은 신조어 등이 나오면 인식을 제멋대로 하는 경향은 있는 것 같다. 영어뿐만 아니라 나는 자주 등장하는 용어들이 독일어/프랑스어가 많아서, 그 두 언어까지 같이 옵션을 넣었었다. 그런데 영어 용어가 컴퓨터 생각에는 애매하다 싶었는지 듣도보도 못한 프랑스어 풍 - 심지어 프랑스어도 아님 - 으로 ocr을 떠놨다;; 예를 들면, Untranslatability라는 단어를 untr ansi a tab il tiy 라고 해뒀다. 이런 디테일함은 조금 아쉬운 부분이다.


그리고... (속닥속닥).. 저렇게 ocr를 해놓으면 .... (속닥속닥)... 급할 때 쫙 긁어서 번역기에 돌리기도 쉽그든요... (속닥속닥)...

전공 특성상 타자 혹은 타 매체에 의해 한 단어로 정의내려진 글을 읽는 것보다 원서로 읽으며 내 마음 속 단어로 정리하는 게 중요하지만 일분일초가 급할 땐 그래도 파파고선생님과 구글선생님이 최곱니다. 정신적 스트레스가 어느 정도 절감되어요 (변명)

아무튼 스캔본들 모조리 ocr 돌려버리고 넘나 만족해서 잠들기 전 기록해두고 잡니다 :D


2020.10.29 추가글

"알PDF에서 '예기치 못한 오류가 발생하여 문자 인식 기능이 취소되었습니다'라는 문구가 뜨면서 OCR이 불가능한 경우 관련"

개강을 코앞에 두고, 미리 나온 논문과 읽기자료들을 글자인식이 되는 pdf로 만들기 위해 여느 때와 다름없이 알pdf를 켰다. 그런데 문자인식이 안 되고, 자꾸 오류 안내 창이 뜨기만 하는 거다. 이스트소프트(알pdf개발사) 측에서 안내하는 바에 따르면, 내가 설치한 버전이 2.33v인데 그에 상응하는 ocr 플러그인을 깔아야만 오류 없이 문자인식이 가능하다고 한다. 알pdf 버전을 꼭 확인해보고, 오류가 난다면 플러그인을 알맞은 버전으로 재설치해 봅시다. 화이팅!


1) 상단 '편집'탭 - '문구 편집' 을 누르면 OCR된 내용을 편집자 임의로 변경할 수 있으며, 원하는 폰트와 사이즈로 조절 가능하다.

심각하게 거슬리는 오탈자가 있거나 이상한 기호가 생겨버리면 조용히 지워주면 된다.

폰트도 개인적으로 선호하는 글씨체가 몇 있는데, 바꾸기만 하면 중구난방으로 행간 값까지 변경되어버려서 페이지 안에 다 들어가지 않는 대참사도 생기곤 하므로 나는 되도록 기본 설정 그대로 저장해버린다.