selectstar 인사이트 2020년 02월 15일 AI는 학습데이터를 통해 지능을 얻습니다. AI가 수행하고자 하는 기능(원천 데이터를 Input으로 받아 원하는 형태의 Output을 내보내는 것)을 사람이 동일하게 수작업(레이블링)한 것을 말합니다. 즉, 사람이 수행한 작업을 보고 AI가 그대로 학습하는 것입니다. 음성인식 AI는 수집한 음성을 사람이 텍스트로 받아적은 학습데이터를 갖고 음성을 텍스트로 바꾸는 기능을 학습하게 됩니다. 따라서, AI 개발을 위해서는 대량의 원천 데이터를 수집하고 정확하게 레이블링 해야 합니다. 데이터 수집 문제 AI는 본인이 이전에 마주한(학습한) 상황일 수록 더 잘 작동합니다. 하여, AI의 범용성과 높은 성능을 위해 다양한 데이터 수집이 필요합니다. AI 스피커 지역, 연령, 성별에 따른 음성데이터 자율주행 전세계 각지의 도로 주행영상 데이터 기계 독해 다양한 사람들의 문서 내 질문-답변 데이터 또한, AI의 적용 범위가 넓어지면서 일반적인 데이터가 아닌 기업에 맞는 데이터를 수집해야 합니다. 강아지 비문 인식 솔루션 강아지 비문 솔루션 탈모 진단 각도에 따른 모발 사진 기계 독해 전국 사투리-표준어 쌍 텍스트/음성 데이터 따라서, AI 기업은 다양한 사람들로 구성된 수집 풀을 필요로 합니다. 데이터 레이블링 문제 수집된 모든 데이터는 레이블링을 거쳐야 학습 데이터가 됩니다. 학습데이터는 AI가 ‘이것이 정답이다’라고 인식하는 것이기에, 대량의 데이터 레이블링을 99%의 정확도로 해야합니다. AI 스피커 음성데이터를 텍스트 전사 변환 자율주행 사진 내 물체의 종류와 위치를 표시하는 Bounding Box 작업 리뷰 분석 사람들이 남긴 리뷰에 대해 감정 분류 작업 또한, 비주기적인 데이터 수요로 전담부서를 둘 수 없어 파트타임 고용 시 많은 리소스가 투입됩니다. 따라서, AI 기업은 대량의 레이블링을 아웃소싱하여 빠르고 정확하게 구축해야 합니다. 작업자 모집 및 교육 데이터 검수 및 프로젝트 관리 데이터 레이블링 문제 또한, 비주기적인 데이터 수요로 전담부서를 둘 수 없어 파트타임 고용 시 많은 리소스가 투입됩니다. 따라서, AI 기업은 대량의 레이블링을 아웃소싱하여 빠르고 정확하게 구축해야 합니다. LLM Products Share on Facebook Share on Twitter