본문 바로가기
데이터라벨러

데이터 라벨링 기초 이론과 작업 과정의 이해

by ∝∞∀∃⅞Θ 2023. 12. 16.
반응형

데이터 라벨링에 대한 기초 이론과 설명에 대해 기록해 두려고 한다. AIDE 시험 이론과는 별개로 기록해 본다.

 

데이터라벨링

 

데이터라벨링은 곧 데이터를 가공하는 일이다. 학습을 하지 않은 인공지능은 신생아와 마찬가지다. 데이터라벨러는 인공지능을 똑똑이로 만들기 위해, 그들을 위한 학습 자료를 만드는 역할을 한다.

 

데이터를 가공하는 이유는 AI가 스스로 학습할 수 있도록 하기 위함이다. 인공지능은 가공되지 않은 데이터는 습득하지 못한다. 따라서 인공지능이 스스로 학습할 수 있는 형태로 데이터를 다듬어 주어야 한다. 결국 인공지능 알고리즘의 고도화를 위해 AI가 스스로 학습할 수 있는 형태로 데이터를 가공해 학습자료를 만드는 일이다.

 

여기서 라벨링의 의미는 단순히 대상의 명칭을 달아주는 작업만을 의미한다기보다, AI가 해당 객체를 인식할 수 있도록 대상에 대해 설명하거나, 정답을 알려주는 작업등을 모두 포함한다.

 

 

데이터 라벨링 작업 과정

 

데이터 라벨링의 과정은 크게 4단계다. 1)데이터 수집, 2) 데이터 정제, 3) 데이터라벨링, 4) 데이터 검수. 데이터 라벨러는 데이터를 가공하는 일을 한다고 했는데, 우선 데이터를 가공하려면 데이터가 필요하다. 따라서 데이터를 수집해야 하며, 수집 이후에는 불필요한 정보나, 형태를 작업하기 좋게 변환하는 과정이 필요한데 이 과정이 데이터 정제 과정이다. 정제된 데이터에 라벨링 작업을 수행하게 되며, 라벨링이 제대로 진행됐는지 검수자가 검수 작업을 진행한다. 또한 검수에 대한 검수도 진행된다. 이러한 과정을 모두 거친 데이터를 '인공지능 학습용 데이터'라고 부르며, 이 데이터는 인공지능 학습의 정답지 역할을 수행한다.

 

결국, 이런 데이터 학습의 정답지를 만드는 사람들을 데이터 라벨러라 부르며, 학습용 데이터가 많아질수록, AI가 반복학습을 많이 할수록 AI는 고도화된다. 각 단계를 차례로 알아보자.

 

반응형

 

먼저, 데이터 수집단계다. 만약, 사람과 자동차를 구별하는 AI학습을 진행한다면 AI에게 사람, 자동차를 구별하는 방법을 알려줘야 한다. 그러기 위해서는 수많은 사람과 자동차 이미지를 보여주고 반복학습 시켜야 한다. AI에게 이미지를 보여주기 위해 사람/자동차 이미지 데이터를 수집하는 과정이 데이터 수집단계다. 

 

다음은, 데이터 정제단계다. 수집한 데이터를 인공지능 학습에 적합한 형태로 만드는 일이다. 기름을 정제하는 것과 마찬가지로, 데이터를 가공하는 단계다. 데이터의 오류를 제거하거나 필요한 형식에 맞게 만들거나, 불필요한 데이터를 삭제하고 개인정보 비식별화를 진행하는 일이 해당된다.

 

다음이 바로 데이터라벨링 단계다. 수집후 가공한 데이터에서 사람과 자동차를 각각 영역화하고 각 위치와 크기, 대상 정보를 달아주는 작업이다.

 

마지막은 데이터 검수 작업이다. 데이터 라벨링이 정확하게 진행 됐는지 확인하는 작업이다. 잘못된 정답지로 학습한 AI는 오류투성이가 될 것이다. 때문에, 정확한 학습 자료로 학습해야지만, AI는 고도화된다. 정확한 학습 자료를 확인하는 중요한 작업이 바로 데이터 검수 작업이다. AI가 학습을 진행하기 전 필수적으로 진행되어야 할 과정이기도 하다.

 

 

데이터 유형별 데이터 라벨링 방법

데이터 홍수의 시대다. 데이터가 넘쳐나는 시대이다. 하지만, 위에서 말했듯이 이 수많은 데이터를 모두 학습용으로 사용할 수는 없다. 데이터의 유형과 인공지능의 개발 목적에 맞는 정제와 라벨링이 이루어져야만 인공지능 학습에 적합한 데이터로서의 자격을 갖추게 될 것이다.

 

그럼 데이터의 유형에는 어떤 것들이 있을까? 우리 사람들이 정보를 습득하는 방식을 생각해보면된다. 이미지, 영상, 텍스트, 오디오가 대표적인 데이터 유형이다.

 

앞서 데이터라벨링 과정에서 언급했듯이, 라벨링을 하기 전에 수집이 먼저 이루어져야 하며, 그후 목적에 맞게 가공하는 작업이 필요하다.

 

이미지데이터의 경우, 직접 촬영한 이미지들을 수집한다. 저작권의 문제를 피하기 위해서다. 이후 바운딩, 감정분석, OCR, 폴리라인, 키포인트, 얼굴랜드마크, 폴리곤 등의 라벨링 기법을 사용하여 라벨링 작업을 진행하게 된다.

 

영상데이터의 경우, 이상행동 탐지 및 동작분석/감정인식에 사용한다. 역시 직접 촬영한 영상데이터를 수집 후 가공한다. 바운딩, 스켈레톤 추출, 특정 구간 추출, 시멘틱세그멘테이션 등의 기법을 사용한다.

 

텍스트 데이터는 문자로 구성되어있는 데이터로 언어모델이라고 부른다. 인터넷 자동 완성기능이나, 연관 검색어가 해당된다. 비대면 의사소통의 증가와 함께 챗봇 등의 사용이 활발해지고 있는 것도 그 일환이다.

 

수집의 경우 제시된 내용에 적절한 질문 대화를 만드는 작업을 진행하며, 문장의 의미 비교 등의 라벨링 기법을 사용한다. 글을 통해 파악할 수 있는 감정상태를 구분하거나, 제시글에서 핵심 키워드를 추출하는 방식도 사용한다. 또 문장요약으로 핵심 내용을 뽑아내기도 한다. 텍스트 속에서 인간이 무엇을 의도하고 있는지 인공지능이 잘 인식하고 이해하기 위한 라벨리이다.

 

마지막으로 음성데이터다. 음성데이터는 상황별 맞춤 대화를 문서로 변환해주는 음성인식 서비스는 물론 자동 번역과 영상 자막등 다양한 곳에서 활용되고 있다. 역시 수집은 직접 진행한다. 주변음이 포함되지 않도록 해야 한다. 수집 이후에는 화자 구분, 음성 받아쓰기, 전사 등의 라벨링 기법을 사용해 가공한다.

 


결국 데이터라벨러는 모든 라벨링 기법을 익히고, 목적에 맞는 데이터를 가공하는 방법을 숙지해야 라벨러로서 작업을 수행할 수 있다.

 

 

반응형

댓글