차례:
임상 유전체학은 사람들이 빠르고 정확한 결과를 처리하기 위해 최첨단 기술을 연구하고있는 매혹적인 주제입니다. 시중에는 많은 게놈 시퀀서가 있으며 페타 바이트의 서열 데이터를 생산하고 있으며 시퀀싱의 성장은 가까운 시일 내에 엑사 바이트의 데이터를 생산할 것입니다. Hadoop은 복잡한 유전체학 워크 플로우를 처리하기위한 완벽한 플랫폼입니다. 하둡은 방대한 양의 정보를 저장하고 정렬 할 수 있으며 의미있는 분석을 제공 할 수 있습니다. (실제로 필요한 데이터 양에 대한 정보를 얻으려면 비트, 바이트 및 그 배수 이해를 읽으십시오.)
유전체학의 현재와 미래
오늘날 게놈 매핑은 개발의 절정에 도달했습니다. 유전체 산업과 관련된 많은 사람들이 호기심으로 가득 차고 있으며 새로운 기회가 생겨날수록 더 나은 기술이 시간의 필요입니다. 게놈 시퀀싱은 매우 반복적이고 자원 집약적 인 작업입니다. 2013 년 한 해에만 약 15 페타 바이트의 데이터가 생성되었으며 2, 000 개의 시퀀서 만 생성되었습니다. 이 죠 드롭 핑량에는 300KB의 서열화 된 인간 게놈 데이터가 포함되었다. 이 데이터 생성 속도에서 2018 년까지 약 1 엑사 바이트의 데이터가 생성 될 것으로 예상 할 수 있습니다. 이는 시퀀서의 증가로 인해 실행 당 더 많은 데이터를 생성합니다. 또 다른 이유는 매우 강력하고 저렴한 게놈 시퀀싱 머신의 출현 때문입니다. 2008 년부터이 기계의 가격은 꾸준히 감소하고 있습니다. 이것은 시장에 진출한 강력한 차세대 기계 때문입니다.
게놈 매핑 산업의 요구
복잡한 알고리즘은 인간 게놈에서 수집 된 데이터를 처리하는 데 사용됩니다. 그런 다음이 정보를 저장해야합니다. 원본 데이터와 비교하기 위해 향후 검토 될 수 있습니다. 100GB의 데이터를 처리하고 저장하는 작업은 그다지 어렵지 않습니다. 특히 시퀀싱 센터에서 사용되는 강력한 머신으로 데이터를 처리 할 때는 더욱 그렇습니다. 연구에 따르면이 양의 데이터는 단 1, 000 시간 안에 처리 할 수 있으므로 매우 쉽습니다. 이 기술 발전 속도에서 게놈 산업은 단 몇 초만에 수천 기가 바이트를 곧 처리 할 것입니다.