오디오 레거시 마이그레이션에서 수동 데이터 입력 이후 머신 러닝을위한 데이터 스크래핑이 어떻게 가장 노동 집약적 인 병목 현상이 되었습니까?

레거시 마이그레이션에서 수동 데이터 입력 이후 머신 러닝을위한 데이터 스크래핑이 어떻게 가장 노동 집약적 인 병목 현상이 되었습니까?

Anonim

큐:

레거시 마이그레이션에서 수동 데이터 입력 이후 머신 러닝을위한 데이터 스크래핑이 어떻게 가장 노동 집약적 인 병목 현상이 되었습니까?

ㅏ:

머신 러닝 (ML) 프로젝트를 시작할 때 기업이 겪을 수있는 실질적인 문제 중 하나는 초기 교육 데이터 세트를 얻는 것입니다. 여기에는 웹 스크랩 핑 또는 기타 데이터 스크랩 핑과 같은 노동 집약적 프로세스가 포함될 수 있습니다.

웹 스크래핑 및 데이터 스크래핑이라는 용어는 주로 컴퓨터 소프트웨어에 의한 자동화 된 활동을 의미하지만 많은 ML 프로젝트의 경우 컴퓨터가 올바른 대상 데이터를 수집하는 정교함을 갖지 못하는 경우가 있으므로 수행해야합니다. "손으로." 이를 "휴먼 웹 / 데이터 스크래핑"이라고 부를 수 있으며 감사 할만한 일입니다. 일반적으로 훈련 세트를 통해 ML 프로그램에 "공급"할 데이터 또는 이미지를 찾는 과정이 포함됩니다. 그것은 종종 꽤 반복적이며, 그것은 지루하고, 느리고, 까다로운 작업을 만듭니다.

무료 다운로드 : 기계 학습 및 중요한 이유

ML 교육 세트의 데이터 스크래핑은 머신 러닝에서 독특하게 문제가되는 병목 현상을 나타냅니다. 부분적으로 다른 많은 작업이 매우 개념적이고 반복적이지 않기 때문입니다. 많은 사람들이 머신 러닝 작업을 수행하는 새로운 앱에 대한 좋은 아이디어를 내놓을 수 있지만 너트와 볼트와 실제 작업은 훨씬 어려울 수 있습니다. 특히 Mike Judge의 "Silicon Valley"TV 쇼에서 자세히 살펴 보았 듯이 훈련 세트 조립 작업을 위임하는 것은 실제로 ML 프로젝트에서 가장 어려운 부분 중 하나 일 수 있습니다. 시즌 4 에피소드에서 신생 기업가는 먼저 파트너가 노동 집약적 작업을하도록 괴롭힌 다음 대학생에게 숙제로 위장하여 전달하려고 시도합니다.

이 예제는 수동 데이터 스크래핑이 얼마나 싫어하고 겉으로는 중요하지 않은지 보여주기 때문에 유익합니다. 그러나이 프로세스는 광범위한 기계 학습 제품에 필요하다는 것도 보여줍니다. 대부분의 사람들은 데이터 입력을 싫어하지만 훈련 세트는 어떤 방식으로 조립되어야합니다. 이 과정의 전문가들은 종종 웹 스크래핑 서비스를 사용하도록 권장합니다. 이는 본질적으로 매우 노동 집약적 인 작업을 외부에 아웃소싱하는 것이지만 보안에 영향을 미치고 다른 문제를 일으킬 수 있습니다. 수동 데이터 수집 작업을 사내에서 유지하는 경우에도 매우 수동적이고 시간이 많이 걸리는 프로세스에 대한 규정이 필요합니다.

어떤면에서 머신 러닝을위한 "휴먼 데이터 스크래핑"은 레거시 마이그레이션에서 수행해야하는 수동 데이터 입력처럼 보입니다. 클라우드가 점점 더 대중화되고 회사가 프로세스와 워크 플로우를 클라우드에 적용함에 따라 일부 기업은 회사 데이터를 격리 된 레거시 시스템에서 클라우드 네이티브 애플리케이션으로 가져 오는 방법에 대한 실질적인 측면을 다루지 않았다는 사실을 발견했습니다. 그 결과, 데이터 과학 자나 필수 IT 기술을 가진 창조적 인 사람들 중 일부는 불쾌한 데이터 입력 작업을 수행하는 것으로 나타났습니다.

머신 러닝에서도 마찬가지입니다. 데이터 과학자가“나는 창조적 인 사람”또는“개발중인 사람”이라고 불평하는 것을들을 수 있지만 누군가는 더러운 일을해야합니다.

다시 한 번, 워크 플로 위임에 대한 실제 평가와 창의적 흐름이 일치하지 않으면 작업 처리가 지시되는 방식에 불일치가 발생합니다. 회사에 데이터 세트 수집에서 데이터 스크래핑 작업을 수행 할 인력이없는 경우 성공적인 프로젝트를위한 절차 체인의 핵심 부분이 부족합니다. 회사가 새로운 머신 러닝 응용 프로그램 개발에 기반을 둔 아이디어에 착수하려고 할 때마다이 점을 명심해야합니다.

레거시 마이그레이션에서 수동 데이터 입력 이후 머신 러닝을위한 데이터 스크래핑이 어떻게 가장 노동 집약적 인 병목 현상이 되었습니까?