큐:
데이터 과학 프로세스를 자동화하고 최적화하는 몇 가지 주요 방법은 무엇입니까?
ㅏ:머신 러닝 및 AI와 관련된 데이터 과학 프로세스는 다음과 같은 4 가지 단계로 나눌 수 있습니다.
- 데이터 수집 및 탐색
- 모델 빌딩,
- 모델 배포 및
- 온라인 평가 및 개선.
내 경험상 가장 방해가되는 단계는 머신 러닝 기반 데이터 과학 프로세스의 데이터 수집 및 모델 배포 단계이며, 이를 최적화하는 두 가지 방법이 있습니다.
1. 접근성이 높은 데이터 저장소를 설정하십시오.
대부분의 조직에서 데이터는 하나의 중앙 위치에 저장되지 않습니다. 고객과 관련된 정보 만 보자. 비즈니스가 웹 응용 프로그램 인 경우 고객 연락처 정보, 고객 지원 이메일, 고객 피드백 및 고객 검색 기록이 있습니다. 이 모든 데이터는 다른 용도로 사용되므로 자연스럽게 흩어져 있습니다. 그것들은 다른 데이터베이스에 상주 할 수 있으며, 일부는 완전히 구조화되고 일부는 구조화되지 않았으며 일반 텍스트 파일로 저장 될 수도 있습니다.
불행하게도, 모든 NLP, 기계 학습 및 AI 문제의 기초가 데이터이기 때문에 이러한 데이터 세트의 분산은 데이터 과학 작업에 매우 제한적입니다. 따라서이 모든 데이터를 한 곳에 (데이터 저장소) 저장하는 것은 모델 개발 및 배포를 가속화하는 데 가장 중요합니다. 이것이 모든 데이터 과학 프로세스에서 중요한 부분이므로 조직은 자격을 갖춘 데이터 엔지니어를 고용하여 데이터 저장소를 구축해야합니다. 이를 통해 간단한 데이터 덤프를 한 곳으로 쉽게 시작할 수 있으며, 잘 생각 된 데이터 저장소로 천천히 성장하여 유틸리티 도구를 사용하여 완전히 문서화되고 쿼리하여 데이터의 하위 집합을 다양한 목적으로 다른 형식으로 내보낼 수 있습니다.
2. 모델을 원활한 통합을위한 서비스로 노출하십시오.
데이터에 액세스 할 수있을뿐만 아니라 데이터 과학자가 개발 한 모델을 제품에 통합 할 수 있어야합니다. Python에서 개발 된 모델을 Ruby에서 실행되는 웹 응용 프로그램과 통합하는 것은 매우 어려울 수 있습니다. 또한이 모델에는 제품이 제공하지 못할 수있는 많은 데이터 종속성이있을 수 있습니다.
이를 처리하는 한 가지 방법은 모델을 "웹 서비스"로 사용하기 위해 모델 주위에 강력한 인프라를 설정하고 제품에 필요한 기능 만 충분히 노출시키는 것입니다. 예를 들어, 응용 프로그램에서 제품 리뷰에 대한 감정 분류가 필요한 경우 웹 서비스를 호출하기 만하면 관련 텍스트를 제공 할 수 있으며 서비스는 제품이 직접 사용할 수있는 적절한 감정 분류를 제공합니다. 이런 식으로 통합은 단순히 API 호출 형태입니다. 모델과 모델을 사용하는 제품을 분리하면 새로운 제품이 번거 로움없이 이러한 모델을 쉽게 사용할 수 있습니다.
이제 모델 주위에 인프라를 설정하는 것은 완전히 다른 이야기이며 엔지니어링 팀의 초기 투자가 필요합니다. 인프라가 일단 구축되면 인프라에 맞는 방식으로 모델을 작성하면됩니다.