큐:
머신 러닝에서 머신 바이어스가 왜 문제가됩니까?
ㅏ:이 질문은 두 가지 방법으로 대답 할 수 있습니다. 첫째, 왜 머신 러닝 프로세스에서 머신 바이어스가 존재하는 것처럼 머신 바이어스 문제가 발생합니까?
기계 학습은 정교하고 복잡하지만 사용하는 데이터 세트에 따라 어느 정도 제한됩니다. 데이터 세트의 구성에는 고유의 바이어스가 포함됩니다. 누락과 의도적 인 포함 선택이 특정 바이어스를 나타낼 수있는 미디어와 마찬가지로 머신 러닝에서 사용되는 데이터 세트를 검사하여 어떤 종류의 바이어스가 있는지 확인해야합니다.
무료 다운로드 : 기계 학습 및 중요한 이유 |
예를 들어, 기술 테스트 및 디자인 프로세스에서 한 유형의 사용자가 다른 유형보다 선호하는 것은 일반적인 문제입니다. 가장 큰 예는 기술 분야의 성별 차이입니다.
이것이 왜 차이를 만들어 내고 머신 러닝에도 적용됩니까?
테스트 환경에 기존 여성이 없으면 여성 사용자에게 친숙하지 않은 생산 기술이 생길 수 있습니다. 일부 전문가들이 설명하는 방법은 기존 여성 테스트가 없으면 최종 제품이 여성 사용자의 입력을 인식하지 못할 수 있습니다. 여성의 신원을 인식하거나 여성의 입력을 적절히 처리 할 수있는 도구가 없을 수 있습니다.
다양한 민족, 다른 종교를 가진 사람들, 또는 다른 유형의 인구 통계에서도 마찬가지입니다. 올바른 데이터가 없으면 머신 러닝 알고리즘이 지정된 사용자 세트에 대해 올바르게 작동하지 않으므로 포함 데이터가 기술에 의도적으로 추가되어야합니다. 기본 데이터 세트를 취하고 고유 한 편향을 강화하는 대신, 인간 처리기는 실제로 문제를 살펴 봐야합니다.
또 다른 예는 직업 및 급여 정보를 받아 결과를 내뿜는 기계 학습 엔진입니다. 고유 한 데이터 세트를 분석하지 않으면 기계가 치우침을 강화합니다. 남성이 대다수의 경영진을 보유하고 있다고 인식하고 기계 학습 프로세스가 원시 데이터 세트를 필터링하고 해당 결과를 리턴하는 것을 포함하는 경우 남성 편견을 나타내는 결과를 리턴합니다.
질문의 두 번째 부분은 왜이 편견이 그렇게 해로운 지에 관한 것입니다. 적절한 감독과 테스트가 없다면 신기술은 우리의 포용성과 평등에 대한 해를 끼치 지 않을 수 있습니다. 피부색이 밝지 만 피부색이 어두운 얼굴을 인식하는 새로운 기술 제품이 출시되면 민족 긴장이 고조되고 문제의 회사가 다양성에 민감하지 않다는 느낌을 줄 수 있습니다. 머신 러닝 알고리즘이 데이터 세트의 편견을 재생산하고 강화하는 경우, 인공 지능은 한 그룹의 사람들을 다른 그룹보다 선호하는 사회 시스템에 이미 존재하는 인간의 목소리와 인간 경향에 그 목소리를 추가 할 것입니다.
이를 처리하는 가장 좋은 방법은 기본 데이터 세트를 면밀히 살펴보고, 기능 선택을 사용하고, 변수 입력을 추가하고 원시 데이터 세트를 조작하고, 의도적으로 인간이 만든 데이터를 조작하여 머신 러닝의 실질적인 힘을 강화하는 것입니다. 결과는 뛰어난 분석 능력을 제공하지만 컴퓨터가 아직 복제 할 수없는 인간의 통찰력도 제공합니다.
