본문 바로가기
직업&직무 정보

데이터 라벨링의 모든 것, 수익 구조부터 일 구하는 방법까지

by ∝∞∀∃⅞Θ 2023. 11. 25.
반응형

SNS상에서 데이터라벨링에 대한 부업 정보를 보며, '오? 이거 괜찮겠다.'라는 생각이 들었다. 데이터라벨링은 무엇인지, 어떻게 돈이 되는지, 데이터 라벨러는 뭐 하는 사람들인지, 데이터라벨링 작업을 경험한 사람들의 후기와 데이터 라벨러가 되려면 어떻게 해야 되는지 조사해 보았다.

 

데이터 라벨링이란? 데이터 라벨링, 데이터 라벨러의 뜻

흔히 '라벨'이라는 단어는 제품/상품의 이름표 정도로 통한다. 그 제품을 다른 제품과 구분할 수 있는 고유한 분류 번호와 제품의 특성, 제품 구성 정보 등이 포함된 제품에 부착된 스티커다. 영어에서 'ing'은 행동이다. 그러므로 '라벨링'은 '라벨을 붙이는 것' 정도로 해석가능하다. 그럼 '데이터라벨링'은 '데이터 라벨을 붙이는 것'이라는 의미다.

 

즉, 데이터를 식별할 수 있도록, 그 데이터만의 정보를 표시하는 행위다. 누구를 위해서? 인공지능(AI)을 위해서다.

 

인공지능을 고도화시키기 위해서는 다양한 데이터를 인공지능의 먹이로 줘야 한다. 하지만, AI는 사람이 사용하는 데이터 형태(문서/이미지/영상/음성 등)를 식별하지 못한다. 그렇기에 AI가 잘 알아들을 수 있도록, 또 스스로 공부할 수 있도록 데이터의 형태를 바꿔줘야 한다. 이 작업을 데이터라벨링이라고 한다.

 

우선 문서나 이미지에 이름을 붙이려면, 붙일 문서와 이미지가 필요하다. 때문에 음성, 영상, 이미지를 수집하는 작업도 포함된다. 어쨌든 이 데이터라벨링 업무를 수행하는 사람들을 데이터 라벨러 라고 한다. AI에게 사람만큼의 인지 능력을 만들어주는, 사람의 언어와 문화, 사람이 정보를 인지하는 방식을 알려주는 선생님이다.

 

결국, AI가 능력을 최대한 발휘하도록 만드는 일이다. AI에게 학습 자료를 제공할수록, AI가 할 수 있는 일이 많아진다. AI가 활용되는 분야는 자율주행, 헬스분야, 통번역, 드론, 핀테크등 다양하다.

 

데이터 라벨링, 어떻게 돈이 되나? 데이터 라벨링 수익구조

기본적으로 데이터 라벨링은 프로젝트 단위로 돈을 버는 개념이다. 무슨 뜻인가? 흔히 데이터라벨링을 온라인 버전의 인형 눈깔 붙이기 작업이라 칭한다. 그런데 눈깔을 붙일 인형이 무한대가 아니란 소리다. 눈깔을 붙일 인형이 항시 대기 중이지 않다. 특정 시점에 한정된 인형들이 공급되는 셈이다. 그 한정된 인형들을 받아 일을 하고자 하는 사람들이 신청을 하고, 선별되면, 눈깔을 붙이고 돈을 받을 수 있게 되는 셈이다.

 

데이터라벨링 프로젝트를 진행할 때, 지원해서 선발되면, 그 업무를 수행하고 그에 대한 대가를 지급받는 시스템이다. 이때, 일을 얼마나 완성도 있게 수행했는지에 따라 내 업무능력이 평가될 것이며, 내가 관련된 많은 교육을 이수할수록, 많은 업무를 수행한 경험이 있을수록, 더 난이도 높고 단가 높은 프로젝트에 참여할 수 있는 시스템으로 추측된다.

 

고인물들의 말에 따르면, 작업량이 많은 성수기와 비수기로 나뉘며, 성수기에 돈을 몰아 벌기 위해서 비수기에 꾸준히 작업 레퍼런스를 쌓아두는 방식으로 접근해야 한다고 한다. 지금 당장 돈을 벌겠다는 마인드보다는, 꾸준히 경험을 쌓아놨다가 성수기에 터뜨리는 방식이다.

 

데이터 라벨링으로 돈 버는 순서
반응형

1. 데이터 라벨링 관련 플랫폼, 홈페이지 접속(회원 가입+교육이수)

2. 참여가능한 프로젝트 찾아보기 및 참석

3. 작업 완료 후 작업물을 검수자에게 제출

4. 검수자가, 기준에 부합하는 작업물인지 검수 후 반려여부 판단(반려 시 재작업 필요)

5. 수익금 지급 신청(프로젝트 난이도 및 업무에 따라 수익금은 차등 책정)

※ 반려당하지 않는 게 중요하기에 교육을 이수함. 작업의 정확도를 높여 반려율을 낮추는 게 포인트.

 

데이터 라벨링의 수행 업무는 여러 가지가 있다.

 

데이터 라벨링 작업 종류, 데이터 라벨러는 무슨 일을 하는가

위에서 말한 것처럼, AI를 교육하는 게 데이터라벨러가 하는 일이다. 그럼 어떤 교육을 시켜야 할까? 데이터라벨링의 작업 종류를 확인해 보자. 작업의 종류는 사실 말 그대로 정보의 형태에 따라 구분 지어진다. AI에게 어떤 형태의 정보를 학습시킬 것인지 말이다.

 

1. 이미지 라벨링
특정 이미지 안에서, 어떤 물체가 어딨는지 이름은 뭔지 규정하여 학습시키기 위한 작업이다. 예를 들어, 가구 종류를 가려내는 작업이 주어졌다고 가정해 보자. 화면에 의자와 소파가 보이면, 의자에는 chair라고, 소파에는 sofa라고 이름을 붙여주면 된다. 추가로 각 이름을 붙일 대상을 명확히 구분해 주기 위해 사각형의 영역을 그리는 작업을 해야 한다고 한다. 포토샵에서 누끼 따는 것과 마찬가지일 것으로 보인다. 

2. 텍스트 라벨링
문장을 구분하거나, 특정 문장에서 단어나 구문의 의미를 식별할 수 있도록 만드는 일이다. 

3. 음성 라벨링
음성을 텍스트로 변환하는 작업이다. 인공지능이 음성을 인식하고 명령을 제대로 인지하도록 만들기 위함이다. 음성 데이터를 정확히 파악하도록 하는 작업이다. 인공지능이랑 대화를 위해 인공지능에게 리스닝을 가르치는 느낌이랄까.

4. 비디오 라벨링
AI가 움직임을 잘 파악할 수 있도록 학습시키기 위함이다. 움직임이나 어떤 이벤트가 발생할 때 잘 인지하게 만드는 일이다.

5. 그 외 기타 유형들도 있다.

 

 

데이터 라벨링 알바 후기 모음

데이터 라벨링 알바를 경험한 분들의 후기 정보를 모아보았다. 

수행 업무
우선, 위에서 말했듯이 1) 이름 붙일 대상 정보(문서/이미지/영상/음성 등)를 모으는 작업을 하거나, 2) 누군가 모아둔 정보들에 이름을 붙이는 일을 한다. 프로젝트의 유형에 따라 다양한 업무가 주어지며, 일반적인 난이도는 높지 않다.

단가
업체마다 단가는 다를 수 있다. 시급으로 환산 시 최저시급이 안 되는 경우도 있다고 한다. 고인물에 따르면, 이 경우 안 하는 게 낫다. 거의 전업 수준으로 진행 시 월 200-300까지 가능하다는 후기들이 있다. 다만, 일반적인 부업 수준이라면, 용돈 벌이 수준의 수익을 얻을 수 있다고 한다.

단점
1) 높은 피로도 :
간단한 작업이지만, 번거로운 작업이기도 하다. 컴퓨터 화면을 계속 보며 세밀한 작업을 해야 하는 만큼 피로도가 높다. 

2) 수요 > 공급 : 프로젝트 지원자는 많은데, 일감을 그보다 적다. 작업이 간단하고 누구나 할 수 있는 일인 만큼, 일하고자 하는 사람은 많은데 일감이 적다고 한다. 대신, 숙련자와 유경험자들은 많은 일감을 받을 수 있다고 한다. 일을 정확히 처리해 반려율이 낮고, 완성도 높은 결과물을 많이 내놓을수록 일감을 많이 얻을 수 있는 구조다. 또 특정 플랫폼의 경우 교육을 이수하고 자격증을 취득한 후 등록하면 일감을 많이 준다고 하니, 돈 넣고 돈 먹기 같은 느낌이 살짝 든다. 즉, 더 많은 프로젝트에 참여하기 위해서는 돈을 써야 하는 아이러니한 상황이 발생한다. 물론 교육을 이수해 더 많은 학습을 했기에 전문성을 좀 더 인정해 주고, 더 효율적인 일처리가 가능하다는 증빙이 되는 만큼 더 많은 기회를 주는 것이라고 생각할 수도 있다.

3) 의사소통 이슈 : 일의 분량 자체가 적기 때문에 지원자들끼리 일감을 나눠서 진행하게 되는데, 의사소통이 원활하지 않아 이슈가 생기는 경우가 종종 있다고 한다.

4) 작업물 날림으로 인한 스트레스 : 프로그램이나 개인의 부주의로 인해 작업물이 저장되지 않는 경우도 있다고 한다. 개인의 실수가 아닌, 프로그램 자체의 불안정으로 인해 작업물이 날아간다면, 상당한 스트레스를 받을 것이다.

5) 적은 급여 : 위 단가에서도 언급했지만, 시급 환산 시 최저 시급보다 적은 프로젝트가 상당수 있다고 한다. 급여 자체가 잘 못 책정된 악덕 프로젝트라고 볼 수 있다. 이런 부분을 잘 확인하고 거를 것은 걸러야 한다고 한다.

장점
1) 진입장벽이 낮다. : 누구나 교육만 받으면 가능(그야말로 성별/경력/연령 무관)하다는 게 최대 장점이다.

2) 교육비 외 별도의 비용이 들지 않는다 : 노트북 외 별도의 장비가 필요 없다. 노트북만 있다면 어디서든 수행할 수 있다는 게 장점이다. 교육의 경우도 2023년 까지는 내일 배움 카드로 무료로 수강 가능하다고 한다.

3) 공간의 제약이 없다: 노트북과 인터넷만 있다면, 어디서든 가능하다.

일감은 어디서 얻나?
크라우드웍스, 캐시 미션, 에이모, 데이터 고블린 등등 여러 플랫폼과 홈페이지가 있다. 관련 플랫폼과 사이트는 하단에 별도로 기록하였다.

추천여부
디지털노가다 라는 한줄평이 지배적이다. 할당량을 채우기도 버겁고, 단순 반복 작업에 취약하신 분들은 많이 힘들 수 있다고 한다. 또한 일감이 안정적이고 주기적으로 공급되지 않기에, 장기적인 수입 파이프라인으로는 적합하지 않다는 의견이 많다. 때문에 추천대상은 아래와 같다.

추천대상
온라인으로 하는 단순 반복 작업이다. 남는 시간을 짬짬이 활용해 소액을 모으고자 하는 분에게 추천하며, 꼼꼼한 작업이 가능한 분에게 적합하다. 개인 사정으로 제대로 된 직장 생활을 당장 하기 힘든 분들에게 적합한 작업이라고 한다.

 

 

데이터 라벨러 교육 및 자격증 취득

위에서 말했듯이, 데이터 라벨링의 난이도 자체가 높지는 않지만, 기준에 맞는 정확한 작업을 하지 않으면 작업물 제출 시 반려될 확률이 크다. 반려율을 낮추는 게 핵심이기 때문에, 기본적으로 교육을 수강하는 게 좋다.

 

크게 3가지로 분류해 봤다.

1. 기본 교육(직업훈련포털 이용_크라우드웍스)
데이터 라벨링 플랫폼이자 교육 강의를 제공하는 크라우드웍스에 따르면, 데이터 라벨링 작업은 크게 2가지로 분류할 수 있다. 1) 작업자와 2) 검수자. 작업자는 말 그대로 노가다꾼. 검수자는 작업물을 관리하고 검수하는 역할을 한다. 기본 교육의 경우 국비지원으로 무료 수강 가능하다. 직업훈련포털인 HRD-net에서 내일배움카드를 통해 수강가능하며, 훈련비 전액 지원 대상인지는 확인이 필요하다(2023까지만 전액 지원이라고 한다). 크라우드웍스에서 진행하는 기초 교육은 작업자/검수자 2가지 버전이 있다.

2. 유튜브 교육
유튜브에도 이미 상당히 많은 데이터라벨링 교육자료가 있다. 참고하자.

3. 전문 자격증 AIDE
데이터라벨링 플랫폼에서 우대해 주는 자격증으로, 한국인공지능협회에서 주관하는 인공지능 학습 전문가 민간 자격증이다. 자격증은 실물 자격증은 아니며 온라인 자격증이다. 한국인공지능자격센터에 접속해서 진행 가능하다. 원서접수 비용은 7만 원.

1급과 2급으로 나뉘며, 2급 취득 후에 1급 취득이 가능하다. 2급은 작업자, 1급은 검수자 과정이라고 볼 수 있다. 위에 교육단에서 언급한 기초 교육을 수강 후에 온라인 응시를 통해 취득한다.

 

 

 

전문 직업인으로서 데이터라벨러

그럼 직업으로서 데이터 라벨러는 어떨까? 위에서 데이터라벨링은 작업 > 검수로 이어진다고 했다. 작업자에서 검수자가 되고, 검수자에서 매니저가 되고, 매니저에서 프로젝트 총괄자가 되는 개념이다. 프리랜서로 작업자로만 일을 할 수도 있을 것이며, 데이터 라벨링 관련 기업에 소속되어, 프로젝트를 매니징 하는 일을 할 수도 있을 것이다.

 

어쨌든, 처음 시작은 데이터 라벨링 부업 혹은 알바로 시작한다. 숙련도가 쌓이면서 전업으로 전향하는 경우가 많다고 한다. 데이터 라벨링에 대한 이해도를 높이고, 실제 어떤 일을 하는지 이해하고 적성에 맞다고 생각이 들면, 정식으로 기업에서 일을 할 기회가 있을 것이다. 채용사이트를 통해 정직원/계약직/출퇴근/재택 등의 요건을 확인할 필요가 있다.

 

결국, 부업이나 소소한 용돈 벌이, 짠테크의 개념이 아닌, 실제로 직업으로서 데이터라벨러가 되고자 한다면, 최대한 여러 프로젝트에 참여해서 경험을 쌓아야 하는 것으로 보인다. 여기도 경력과 경험이 중한 것. 우선 많은 프로젝트에 참여하려면, 교육이수를 해야 하며, 유료 전문 자격증까지 취득해야 할 것으로 보인다. 그러면서 많은 프로젝트에 틈날 때마다 꾸준히 참여하면, 해당 플랫폼에서 경력이 쌓이는 셈이다. 미션을 잘 수행하고 작업물을 잘 내놓는다고 인정을 받으면, 그만큼 일감이 늘어나는 시스템으로 추측할 수 있다. 만약 언어 특기가 있다면, 언어 관련 프로젝트는 좀 더 단가가 높다고 하니, 활용해 볼 법도 하다. 핵심은 반려율을 낮추는 것으로 보인다.

 

어쨌든 경험이 쌓이면, 작업자에서 검수자가 될 것이며, 검수자에서 프로젝트 담당자가 될 것이다. 

 

데이터 라벨링 정보 및 일감을 얻을 수 있는 플랫폼(홈페이지)

 

'데이터 라벨링' 키워드로 많은 정보들을 계속 수집해 봤는데, 한 업체가 바이럴을 상당히 심하게 하고 있는 것을 확인할 수 있었다. 이유는 짐작이 간다. 어쨌든, 원고를 작성해서, 심지어 동일한 사진을 블로거들에게 뿌린 듯하다. 블로그 내용이 죄다 똑같다. 그래서 진짜 후기들을 더 찾아봤던 이유이기도 하다. 충격적 이게도 초록창 상위 노출이 죄다 원고 작업 포스팅이었다. 어쨌든 광고던 뭐든지 데이터 라벨링을 할 수 있는 플랫폼들을 모아보았다.

1)크라우드웍스(crowdworks) : 모여서 일한다는 뜻이다. 50만 명이 넘는 작업자가 참여 중이다. 데이터 라벨러로서 일하기 위해 내일배움카드로 무료 교육을 받을 수 있는데, 그 교육 진행 기관이다. 고용노동부 인증을 받았다는 뜻이다. 교육에는 초보자과정, 숙련자 과정이 있으며 2023까지만 무료 수강이 가능하다고 하다.

또한 바이럴 광고를 가장 많이 하고 있는 업체로 보인다. 옆동네 블로그에 '데이터라벨링' 키워드로 검색해 보면, 원고를 주고 복붙 하게 만든 블로그들이 수두룩 빽빽이다. 그래서 실제 내가 경험해 본 후기를, 이후 제대로 남겨볼까 한다. 어쨌든, 이쪽 플랫폼 중에는 가장 브랜드 인지도가 높고, 마케팅에 많은 돈을 쏟고 있는 회사로 볼 수 있다.

2)데이터고블린 : 작업자로서 일을 할 수 있다. 단, 작업자로 선발되는 과정을 거쳐야만 일을 할 수 있다. 즉, 바로 작업에 참여할 수 없다. 작업자로 선발되고자 하면, 항시 업데이트 사항을 확인해야 한다. 반려율을 줄여 우수작업자로 선정되는 것이 중요하다. 작업물이 만족스러우면, 다음 프로젝트 때 다시 제의가 온다고 한다.

3)에이아이웍스 : 데이터라벨링 프로젝트 제공 플랫폼이다.

4) 그 외 플랫폼 : 레이블러/에이모/캐시미션/메트웍스/labelers/labelon
* 레이블러 : 구조가 간단해서 초보자들이 참고해 봐도 좋다.


5) 채용 사이트 : 잡코리아, 사람인, 알바몬을 통해서도 프로젝트 지원 가능하다.

 

데이터 라벨링, 종합소득세 신고

데이터 라벨링으로 벌어들인 소득은, 잊지 말고 5월에 종합소득세 신고를 해야만 한다. 

 

정부 데이터 라벨링 지원 현황

2020년 5월 정부는 청년일자리 창출 계획의 일환으로 데이터 라벨링 청년 일자리를 10만 개 만들겠다고 밝혔다. 2022년에는 실제 데이터라벨링 관련 사업에 정부에서 6000억 원을 지원했다고 한다. 

 


데이터 라벨링에 대해 더 자세히 알아보고, 실제 플랫폼을 활용해서 시작해 볼 예정이다. 각 플랫폼의 특징과 실제 어떻게 수익을 창출해 나갈지, 자격증 취득과정과 교육에 관한 글도 기록해 보고자 한다.

 

반응형

댓글