편집자 주 : 이것은 과거 웹 캐스트 중 하나의 사본입니다. 다음 에피소드가 빨리 나옵니다. 등록하려면 여기를 클릭하십시오.
Eric Kavanagh : 신사 숙녀 여러분 안녕하세요, TechWise의 에피소드 2에 다시 오신 것을 환영합니다. 그렇습니다. 참으로 현명한 사람들을 사 time 때가되었습니다! 오늘 그 노력에 도움을 줄 수있는 똑똑한 사람들이 많이 있습니다. 내 이름은 물론 Eric Kavanagh입니다. 이 전 세계 세션에서 여러분의 호스트, 중재자가 되겠습니다. 우리는 여기에 많은 내용을 가지고 있습니다. 우리는 사업 분야에서 큰 이름을 가지고 있으며, 우리 공간의 분석가이자 가장 흥미로운 벤더 중 4 명입니다. 오늘 우리는 통화에 대해 많은 좋은 조치를 취할 것입니다. 그리고 물론, 청중에서 당신은 질문을하는 데 중요한 역할을합니다.
다시 한 번이 쇼는 TechWise이며 오늘 주제는 "웹 로그 분석으로 비즈니스를 어떻게 개선 할 수 있습니까?"입니다. 분명히, 그것은 당신이 할 수있는 다양한 종류의 분석을 이해하려고 노력할 것입니다. 그리고 그것이 하루 종일 끝났기 때문에 운영을 향상시킬 수있는 방법입니다.
그래서 당신은 상단에 저 자신을 볼 수 있습니다, 그것은 당신의 진실입니다. George Mason University의 좋은 친구 인 Kirk Borne 박사. 그는 엄청난 양의 경험, 이 공간 및 데이터 마이닝, 빅 데이터 및 모든 종류의 재미있는 것들에 대한 매우 깊은 전문 지식을 갖춘 데이터 과학자입니다. 물론 Bloor Group의 수석 분석가 인 Dr. Robin Bloor도 있습니다. 수년 전에 보험 계리사로 훈련받은 사람. 그리고 그는 지난 50 년 동안이 전체 빅 데이터 공간과 분석 공간에 집중했습니다. Bloor Group 자체를 시작한 지 거의 5 년이 지났습니다. 따라서 재미있게 시간을 보내십시오.
또한 펜타 호 (Pentaho)의 수석 아키텍트 인 윌 고먼 (Will Gorman)의 의견도 들어 보겠습니다. WebAction의 CCO 인 Steve Wilkes; FrankLogics, MarkLogic 기술 이사; 그리고 Treasure Data의 책임자 Hannah Smalltree. 내가 말했듯이, 그것은 많은 내용입니다.
그렇다면 어떻게 분석이 비즈니스에 도움이 될 수 있습니까? 글쎄, 어떻게 솔직히 당신의 사업을 도울 수 없습니까? 조직을 개선하는 일을 수행하는 데 분석을 사용할 수있는 모든 방법이 있습니다.
따라서 작업을 간소화하십시오. 그것은 마케팅이나 수익 증대, 기회 파악과 같은 일에 대해 듣지 못하는 것입니다. 그러나 운영 간소화는 조직을 위해 할 수있는 정말 강력하고 강력한 일입니다. 예를 들어 무언가를 아웃소싱하거나 특정 프로세스에 데이터를 추가 할 수있는 장소를 식별 할 수 있기 때문입니다. 또한 누군가 전화를 걸거나 다른 사람이 이메일을 보내지 않아도되므로 간소화 할 수 있습니다. 작업을 능률화 할 수있는 다양한 방법이 있습니다. 이 모든 것이 비용을 낮추는 데 실제로 도움이됩니다. 이것이 핵심이며 비용을 절감합니다. 또한 고객에게 더 나은 서비스를 제공 할 수 있습니다.
그리고 당신이 얼마나 참을성이없는 사람들이 되었는가에 대해 생각한다면, 사람들이 우리의 쇼, 우리가 사용하는 서비스 제공 업체들과 온라인으로 상호 작용하는 방식의 관점에서 매일 이것을 봅니다. 사람들이 갖는 인내심, 관심 범위는 날마다 점점 짧아집니다. 이는 조직으로서 고객을 만족시키기 위해 더 빠르고 더 빠른 시간 내에 대응해야한다는 의미입니다.
예를 들어 누군가가 웹 캐스트 사이트에 있거나 무언가를 찾으려고 탐색 할 때 좌절하고 떠나면 고객을 잃었을 수 있습니다. 그리고 제품이나 서비스에 대해 청구하는 금액에 따라 큰 문제 일 수 있습니다. 결론적으로, 운영 간소화는 분석을 적용하기위한 가장 뜨거운 공간 중 하나라고 생각합니다. 예를 들어 "이 웹 사이트의이 페이지에서 왜 많은 사람들을 잃고 있습니까?" "지금 왜 이러한 전화를 받고 있습니까?"
그리고 이런 종류의 물건에 실시간으로 반응할수록 상황을 극복하고 너무 늦기 전에 무언가를 할 가능성이 높아집니다. 누군가가 무언가에 대해 화를내는 시간이 있기 때문에, 그들은 불만을 느끼거나 무언가를 찾으려고하지만 좌절합니다. 고객에게 연락하고, 고객과 교류 할 수있는 기회가 있습니다. 올바른 데이터 또는 훌륭한 고객 사진을 통해 올바른 방식으로 정보를 제공하는 경우-이 고객이 누구인지, 수익성이 무엇인지, 선호도가 무엇인지 이해합니다. 실제로 처리 할 수 있다면 그렇게 할 것입니다. 고객을 유지하고 새로운 고객을 확보하는 데 큰 도움이됩니다. 그리고 그것이 전부입니다.
이를 통해 오늘날의 데이터 과학자 중 한 명인 Kirk Borne에게 전달할 것입니다. 그리고 요즘 사람들은 매우 드, 니다. 우리는 적어도 두 명은 통화 중이므로 큰 문제입니다. 이를 통해 Kirk는 분석과 비즈니스에 도움이되는 방법에 대해 이야기 할 것입니다. 해봐
커크 본 박사 : 글쎄요, 에릭. 내 말 들려요?
에릭 : 괜찮습니다.
커크 박사 : 좋습니다. 5 분 동안 이야기를 나누면 사람들이 나에게 손을 흔드는 것입니다. 따라서이 주제와 관련이있는 개시 내용 인 Eric은 다음 몇 분 안에 간략하게 이야기 할 것입니다. 즉, 의사 결정에 필요한 데이터에 대한 빅 데이터 및 분석을 사용하는 것입니다. 운영 간소화에 대해 한 의견은 일종의 운영 분석 개념에 속하며 과학 응용 프로그램, 비즈니스, 사이버 보안 및 법 집행 기관 등 전세계 모든 응용 프로그램에서 거의 볼 수 있습니다. 정부, 건강 관리. 데이터 스트림이 있고 데이터 스트림에서 볼 수있는 이벤트 및 경고 및 동작에 대한 반응으로 어떤 종류의 응답 또는 결정을 내릴 수 있습니다.
오늘 이야기하고 싶은 것은 실제로 빅 데이터에서 지식과 통찰력을 추출하여 실제로 조치를 취할 결정을 내릴 수있는 시점에 도달하는 것입니다. 그리고 종종 우리는 자동화 맥락에서 이것에 대해 이야기합니다. 그리고 오늘 저는 자동화를 인간 분석가와 반복적으로 혼합하고 싶습니다. 이것은 비즈니스 분석가가 데이터에서 추출한 특정 행동 또는 머신 러닝 규칙을 베팅, 자격 부여, 검증하는 데있어 중요한 역할을 수행한다는 의미입니다. 그러나 우리가 추출한 비즈니스 규칙과 우리에게 경고하는 메커니즘이 유효하다고 확신하는 시점에 도달하면 자동화 된 프로세스로 전환 할 수 있습니다. 우리는 실제로 Eric이 말한 운영 간소화를 수행합니다.
저는 여기서 약간의 단어를 가지고 있지만, 그것이 당신에게 효과가 있다면, D2D 도전에 대해 이야기하기를 바랍니다. D2D는 모든 상황에서 의사 결정을 데이터화 할뿐만 아니라이 슬라이드의 맨 아래에서이를 확인할 수 있기를 바랍니다. 분석 파이프 라인에서이를 발견하고 수익을 늘리는 것이 좋습니다.
이런 맥락에서 저는 실제로 마케팅 담당자의 역할을 수행하고 있습니다. 가장 먼저해야 할 일은 데이터를 특성화하고, 기능을 추출하고, 고객의 특성을 추출하거나 공간에서 추적하고있는 엔티티를 추출하는 것입니다. 건강 분석 환경의 환자 일 수 있습니다. 사이버 보안 문제를보고 있다면 웹 사용자 일 수도 있습니다. 그러나 특성을 특성화하고 추출한 다음 해당 개체, 해당 개체에 대한 컨텍스트를 추출하십시오. 그런 다음 방금 만든 조각을 수집하여 기계 학습 알고리즘을 적용 할 수있는 일종의 컬렉션에 넣습니다.
내가 이런 식으로 말하는 이유는 공항에 감시 카메라가 있다는 것입니다. 비디오 자체는 엄청나게 많으며 구조화가 잘되어 있지 않습니다. 그러나 비디오 감시, 얼굴 생체 인식에서 추출하고 감시 카메라에서 개인을 식별 할 수 있습니다. 예를 들어 공항에서는 특정 개인을 식별 할 수 있으며 여러 감시 카메라에서 동일한 개인을 교차 식별하여 공항을 통해 추적 할 수 있습니다. 실제로 채굴 및 추적중인 추출 된 생체 인식 기능이 실제 상세 비디오 자체가 아닙니다. 그러나 이러한 추출이 이루어지면 머신 러닝 규칙 및 분석을 적용하여 특정 경우에 조치를 취해야하는지 또는 잘못 발생했거나 오퍼를 제공 할 기회가 있는지 여부를 결정할 수 있습니다. 예를 들어 공항에 매장이 있는데 고객이 길을오고 그 고객에 대한 다른 정보를 알고 있다면 면세점에서 물건을 구입하는 데 실제로 관심이 있거나 그런 것을 제안하십시오.
그렇다면 특성화와 잠재력이란 무엇을 의미합니까? 특성화로 다시 말해서 데이터의 특징과 특성을 추출하는 것을 의미합니다. 그리고 이것은 기계로 생성 될 수 있으며, 그 알고리즘은 예를 들어 비디오 또는 감정 분석에서 생체 서명을 추출 할 수 있습니다. 온라인 리뷰 나 소셜 미디어를 통해 고객의 정서를 추출 할 수 있습니다. 이러한 것 중 일부는 사람이 생성 한 것일 수 있으므로 비즈니스 분석가 인 사람은 다음 슬라이드에서 보여줄 추가 기능을 추출 할 수 있습니다.
이들 중 일부는 크라우드 소싱이 가능합니다. 그리고 크라우드 소싱에 의해, 당신이 그것에 대해 생각할 수있는 많은 다른 방법들이 있습니다. 그러나 예를 들어 사용자가 웹 사이트를 방문하여 검색어, 키워드를 입력하면 특정 페이지에 들어가서 해당 페이지에서 실제로 시간을 보냅니다. 그들은 적어도 실제로는 해당 페이지의 내용을보고, 탐색하고, 클릭하고 있다는 것을 이해합니다. 당신에게 말한 것은 그들이 처음에 입력 한 키워드가 고객이 예상 한 페이지에 고객을 방문했기 때문에 해당 페이지의 설명 자라는 것입니다. 따라서 추가 키워드를 추가 할 수 있습니다. 즉, 이 키워드를 사용하는 고객은 실제로 정보 구조 내에서 해당 웹 페이지를 해당 키워드와 일치하는 장소로 식별했습니다.
따라서 크라우드 소싱은 사람들이 잊어 버리는 또 다른 측면으로 고객의 빵 부스러기를 추적하는 것입니다. 온라인 부동산이든 부동산이든 상관없이 공간을 어떻게 이동합니까? 그런 다음 고객이 우리가보고있는 것에 대한 추가 정보를 얻도록 그러한 경로를 사용하십시오.
따라서 인간이 만든 물건이나 기계로 생성 된 것은 특정 데이터 과립이나 엔터티에 주석을 달거나 태그를 지정하는 것과 관련하여 컨텍스트가 생겼습니다. 해당 기관이 병원, 환자 또는 기타 환자의 환자인지 여부. 태그와 주석에는 여러 가지 유형이 있습니다. 그 중 일부는 데이터 자체에 관한 것입니다. 그것은 사물, 어떤 유형의 정보, 어떤 종류의 정보, 특징, 모양, 질감과 패턴, 변칙적, 비 변칙적 행동 중 하나입니다. 그런 다음 의미를 추출하십시오. 즉, 이것이 내가 아는 다른 것과 어떤 관련이 있거나이 고객이 전자 고객입니다. 이 고객은 의류 고객입니다. 또는이 고객은 음악 구매를 좋아합니다.
음악을 좋아하는이 고객들은 엔터테인먼트를 좋아하는 경향이 있습니다. 어쩌면 우리는 그들에게 다른 오락 시설을 제공 할 수도있을 것입니다. 따라서 의미와 일부 출처를 이해하는 것이 기본적으로 다음과 같습니다. 어디에서이 주장이 어디서 왔으며, 누가이 주장을 언제, 언제, 어떤 날짜에 제공 했습니까?
따라서 모든 주석과 특성화가 끝나면 다음 단계를 추가하십시오. 다음 단계는 상황, 사람의 종류, 시기, 장소 및 이유입니다. 사용자는 누구입니까? 그들이 온 채널은 무엇입니까? 정보의 출처는 무엇입니까? 이 특정 정보 또는 데이터 제품에서 어떤 종류의 재사용을 보았습니까? 비즈니스 프로세스에서 어떤 가치가 있습니까? 그런 다음 이러한 것들을 수집하고 관리하며 실제로 그렇게 생각하고 싶다면 데이터베이스를 만드는 데 도움이됩니다. 다른 비즈니스 분석가 또는 자동화 된 프로세스를 통해 검색 가능하고 재사용 가능하게하여 다음에 이러한 기능 세트를 볼 때 시스템이이 자동 조치를 취할 수 있습니다. 따라서 우리는 이러한 종류의 운영 분석 효율성에 도달하지만 유용하고 포괄적 인 정보를 수집할수록 이러한 사용 사례를 위해 정보를 선별합니다.
우리는 사업을 시작합니다. 우리는 데이터 분석을 수행합니다. 우리는 흥미로운 패턴, 놀라움, 참신 특이점, 이상을 찾습니다. 인구의 새로운 클래스와 세그먼트를 찾습니다. 우리는 다양한 엔티티들 사이의 연관성 및 상관 관계 및 링크를 찾습니다. 그리고 우리는 발견, 의사 결정 및 달러 결정 프로세스를 추진하기 위해이 모든 것을 사용합니다.
다시 말하지만, 여기에 제가 가지고있는 마지막 데이터 슬라이드가 기본적으로 요약되어 있습니다. 비즈니스 분석가를 반복해서 유지합니다. 다시 말하지만, 당신은 그 인간을 추출하지 않고 그 인간을 거기에 두는 것이 중요합니다.
따라서 이러한 기능은 모두 기계 또는 인간 분석가 또는 크라우드 소싱을 통해 제공됩니다. 우리는 이러한 조합을 적용하여 모델에 대한 훈련 세트를 개선하고보다 정확한 예측 모델, 오탐 및 부정을 줄이며, 보다 효율적인 행동, 고객 또는 누구와의 효과적인 개입을 제공합니다.
하루가 끝날 무렵, 우리는 기계 학습과 빅 데이터를 인간 인식의 힘과 결합하는 것입니다. 이러한 인식 기능은 이런 종류의 태깅 주석 조각이 들어오는 곳입니다. 그리고 시각화 및 시각적 분석 유형을 통해 이어질 수 있습니다 도구 또는 몰입 형 데이터 환경 또는 크라우드 소싱. 그리고 마지막 날, 이것이 실제로하고있는 것은 우리의 발견, 통찰력 및 D2D를 생성하는 것입니다. 그리고 저의 의견입니다. 들어 주셔서 감사합니다.
에릭 : 이봐, 그거 좋은데 내가 열쇠를 로빈 블로어 박사에게 넘겨서 그의 관점을 보여 줄게. 예, 운영 개념 간소화에 대한 의견을 듣고 운영 분석에 대해 이야기하고 있습니다. 나는 그것이 상당히 철저히 탐구되어야 할 큰 영역이라고 생각합니다. 그리고 로빈이 빨리 나오기 전에 커크를 다시 데려 올게 회사의 여러 플레이어들 사이에 상당한 협력이 필요합니다. 운영 담당자와 대화해야합니다. 기술 인력을 확보해야합니다. 때로는 마케팅 담당자 나 웹 인터페이스 담당자를 확보하기도합니다. 이들은 일반적으로 다른 그룹입니다. 모든 사람이 게임에 피부를 갖도록하는 방법에 대한 모범 사례 나 제안이 있습니까?
커크 박사 : 글쎄, 이것이 협업의 비즈니스 문화와 관련이 있다고 생각합니다. 사실, 저는 세 가지 C의 분석 문화에 대해 이야기합니다. 하나는 창의성입니다. 다른 하나는 호기심이고 세 번째는 협업입니다. 따라서 창의적이고 진지한 사람들을 원하지만이 사람들이 협력하도록해야합니다. 비즈니스의 공통 목표를 향해 공개적으로 공유하고 협력해야하는 사람들과 문화를 구축하는 것부터 시작합니다.
에릭 : 모든 것이 말이됩니다. 그리고 당신은 정말로 그것을 달성하기 위해 정상에서 좋은 리더십을 얻어야합니다. 계속해서 닥터 블로어에게 건네주십시오. 로빈, 바닥은 네 꺼야
로빈 블로어 박사 : 좋습니다. 그 소개에 감사합니다, 에릭 우리가 분석가 두 명을 가지고 있기 때문에, 이것들이 보여지는 방식은 다음과 같습니다. 나는 다른 사람들이하지 않는 분석가의 프레젠테이션을 보게됩니다. 나는 커크가 무슨 말을할지 알았고 우리가 너무 겹치지 않도록 완전히 다른 각도로 갔다.
제가 실제로 이야기하거나 이야기하려는 것은 데이터 분석가의 역할과 비즈니스 분석가의 역할입니다. 그리고 제가 그것을 특징 짓는 방식은, 어느 정도는 뺨에 혀를 넣는 방식은 지킬과 하이드입니다. 이론 상으로는 데이터 과학자들과의 차이점은 그들이하는 일을 알고 있습니다. 비즈니스 분석가는 그렇지 않지만 수학이 작동하는 방식, 신뢰할 수있는 것과 신뢰할 수없는 것에 대해서는 괜찮습니다.
따라서 우리가이 일을하는 이유, 즉 데이터 분석이 실제로 대량의 데이터를 실제로 분석하고 조직 외부에서 데이터를 가져올 수 있다는 사실과는 별개로 데이터 분석이 갑자기 큰 원인이 된 이유에 대해 알아 보겠습니다. 지불 하는가? 내가 이것을 보는 방식-그리고 이것은 단지 사례가 될 뿐이라고 생각하지만 확실히 사례라고 생각합니다-데이터 분석은 실제로 비즈니스 R & D입니다. 실제로 데이터 분석을 통해 어떤 방식 으로든하고있는 것은 비즈니스 프로세스를 한 가지 유형으로 보거나 그것이 고객과의 상호 작용인지, 소매 운영 방식, 배포 방식과 관계가 있는지 여부입니다. 당신의 상점. 문제가 무엇인지는 중요하지 않습니다. 특정 비즈니스 프로세스를보고 있으며 개선하려고합니다.
성공적인 연구 개발의 결과는 변화 과정입니다. 원하는 경우 제조를 일반적인 예로들 수 있습니다. 제조 과정에서 사람들은 제조 공정을 개선하고 개선하기 위해 모든 정보를 수집합니다. 그러나 나는 무슨 일이 있었는지 또는 빅 데이터에서 일어나고있는 일이 이제 모든 사람이 생각할 수있는 어떤 방식 으로든 모든 비즈니스에 적용되고 있다고 생각합니다. 따라서 데이터를 수집 할 수 있다면 거의 모든 비즈니스 프로세스를 시험 할 수 있습니다.
한 가지입니다. 원하는 경우 데이터 분석 문제가 있습니다. 비즈니스를위한 데이터 분석은 무엇을 할 수 있습니까? 글쎄, 그것은 사업을 완전히 바꿀 수 있습니다.
내가 구체적으로 설명하지 않을 특정 다이어그램은, 그러나 우리가 올해 첫 6 개월 동안 수행 한 연구 프로젝트의 정점으로 생각 해낸 다이어그램입니다. 이는 빅 데이터 아키텍처를 나타내는 방법입니다. 그리고 다음 슬라이드로 넘어 가기 전에 지적 할 가치가있는 많은 것들이 있습니다. 여기에는 두 가지 데이터 흐름이 있습니다. 하나는 실시간 데이터 스트림이며 다이어그램의 맨 위에 있습니다. 다른 하나는 다이어그램의 맨 아래에있는 느린 데이터 스트림입니다.
다이어그램의 하단을보십시오. 데이터 저장소로 하둡을 확보했습니다. 다양한 데이터베이스가 있습니다. 우리는 거기에 모든 활동이 일어나는 전체 데이터를 가지고 있으며, 대부분은 분석 활동입니다.
내가 여기서 만들고자하는 점과 내가 정말로 여기에서 만들고 싶은 유일한 점은 기술이 어렵다는 것입니다. 간단하지 않습니다. 쉽지 않습니다. 게임을 처음 접하는 사람이 실제로 모을 수있는 것은 아닙니다. 이것은 상당히 복잡합니다. 그리고 이러한 모든 프로세스에서 신뢰할 수있는 분석을 수행하기 위해 비즈니스를 계측하려는 경우 특별히 빠르게 일어날 일이 아닙니다. 믹스에 추가하려면 많은 기술이 필요합니다.
괜찮아. 데이터 과학자가 무엇인지에 대한 질문은 컴퓨팅에 대해 교육을 받기 전에 실제로 통계에 대한 교육을 받았기 때문에 데이터 과학자라고 주장 할 수 있습니다. 저는 보험 계리 업무를 한동안 수행하여 비즈니스 운영 방식, 통계 분석 및 자체 운영 방식을 알았습니다. 이것은 사소한 것이 아닙니다. 그리고 인간 측면과 기술 측면 모두에 관련된 수많은 모범 사례가 있습니다.
그래서 "데이터 과학자 란 무엇인가"라는 질문을 할 때, 나는 프랑켄슈타인 그림을 함께 짜야 만하는 것들의 조합이기 때문에 간단히 넣었습니다. 프로젝트 관리가 관련되어 있습니다. 통계에는 깊은 이해가 있습니다. 데이터 과학자보다 비즈니스 분석가의 문제인 도메인 비즈니스 전문 지식이 반드시 있어야합니다. 데이터 아키텍처를 이해하고 데이터 아키텍트를 구축 할 수있는 경험이 있거나 소프트웨어 엔지니어링이 필요합니다. 다시 말해, 아마도 팀일 것입니다. 아마 개인이 아닐 것입니다. 그것은 아마도 조직이 구성되어야하는 부서 일 것이며 조직은 상당히 광범위하게 생각되어야한다는 것을 의미합니다.
머신 러닝의 사실을 혼합하여 활용. 머신 러닝에 사용되는 대부분의 통계 기법이 수십 년 동안 알려져 왔다는 의미에서 머신 러닝은 새로운 것이 아닙니다. 몇 가지 새로운 것들이 있습니다. 신경망이 비교적 새롭다는 것을 의미합니다. 그것들은 단지 약 20 살이라고 생각합니다. 그러나 머신 러닝의 문제는 실제로 컴퓨터를 사용할 수있는 능력이 없다는 것입니다. 그리고 다른 일을 제외하고는 지금 컴퓨터 전원이 공급되고 있습니다. 이는 데이터 과학자들이 모델링 상황, 데이터 샘플링 및 데이터를 심층 분석하기 위해 마샬링하는 측면에서 이전에했던 많은 것을 의미합니다. 실제로, 어떤 경우에는 컴퓨터에 전원을 공급할 수도 있습니다. 기계 학습 알고리즘을 선택하고 데이터에 던져서 무엇이 나오는지 확인하십시오. 비즈니스 분석가가 할 수있는 일입니까? 그러나 비즈니스 분석가는 자신이하는 일을 이해해야합니다. 내 생각에 그게 다른 무엇보다도 문제라고 생각합니다.
글쎄, 이것은 다른 수단보다 데이터에서 비즈니스에 대해 더 많이 알기위한 것입니다. 아인슈타인은 그런 말을하지 않았습니다. 나는 단지 그의 그림을 신뢰하기 위해 올렸다. 그러나 실제로 개발이 시작되고있는 상황은 기술이 제대로 사용된다면, 수학이 제대로 사용된다면 어떤 개인이든 사업을 운영 할 수있는 상황입니다. 우리는 이것을 IBM과 함께 보았다. 우선, 그것은 체스에서 최고의 사람들을 이길 수 있었고, Jeopardy에서 최고의 사람들을 이길 수있었습니다. 그러나 결국 우리는 회사 운영에있어 최고의 사람들을 이길 수있을 것입니다. 통계는 결국 승리 할 것입니다. 그리고 어떻게 그런 일이 일어나지 않을지 알기가 어렵지만 아직 일어나지 않았습니다.
제가 말씀 드리고 싶은 것은 프레젠테이션의 완전한 메시지입니다.이 두 가지 비즈니스 이슈입니다. 첫 번째는 기술을 올바르게 얻을 수 있습니까? 실제로 그것을 감리하고 비즈니스에 혜택을 줄 수있는 팀에게 기술을 적용 할 수 있습니까? 그리고 두 번째로, 사람들을 바르게 잡을 수 있습니까? 그리고 둘 다 문제입니다. 그리고 그들은 지금까지 해결되지 않은 문제입니다.
좋아 에릭, 다시 돌려 줄게 아니면 윌에게 전달해야 할 것입니다.
에릭 : 실은 그래. 감사합니다, 윌 고먼 네, 갑니다 그럼 보자. WebEx의 열쇠를 알려 드리겠습니다. 무슨 일이야? 펜타 호, 분명히, 당신은 한동안 주위에 있었고 오픈 소스 BI의 종류는 당신이 시작한 곳입니다. 그러나 예전보다 훨씬 많은 것을 얻었으므로 요즘 분석을 위해 무엇을 얻었는지 봅시다.
윌 고먼 : 물론입니다. 안녕하세요 여러분! 제 이름은 윌 고먼입니다. 저는 Pentaho의 수석 아키텍트입니다. 우리에 대해 들어 보지 못한 분들을 위해 펜타 호는 빅 데이터 통합 및 분석 회사라고 언급했습니다. 우리는 10 년 동안 사업을 해왔습니다. 당사의 제품은 데이터 통합 및 분석을위한 오픈 소스 플랫폼으로 시작하여 빅 데이터 커뮤니티와 나란히 발전했으며 이러한 기술을 중심으로 상업 조직이 형성되기 전에도 Hadoop 및 NoSQL과 같은 기술로 혁신했습니다. 이제 오픈 소스를 중심으로 한 혁신으로 인해 1500 명 이상의 상업 고객과 더 많은 생산 약속이 있습니다.
우리의 아키텍처는 특히 빅 데이터 기술이 매우 빠른 속도로 발전함에 따라 융통성있게 내장되고 확장 가능하며 목적에 맞게 구축되었습니다. Pentaho는 빅 데이터 분석 사용 사례를 해결하기 위해 함께 작동하는 3 가지 주요 제품 영역을 제공합니다.
아키텍처 범위의 첫 번째 제품은 데이터 기술자 및 데이터 엔지니어를 대상으로하는 Pentaho Data Integration입니다. 이 제품은 빅 데이터 환경 및 기존 환경 내에서 데이터를 조정하기위한 데이터 파이프 라인 및 프로세스를 정의하기위한 시각적 인 끌어서 놓기 환경을 제공합니다. 이 제품은 Java를 기반으로하는 경량의 메타 데이터 기반 데이터 통합 플랫폼이며 MapReduce 또는 YARN 또는 Storm 및 기타 여러 배치 및 실시간 플랫폼 내에서 프로세스로 배포 할 수 있습니다.
두 번째 제품 영역은 시각적 분석에 관한 것입니다. 이 기술을 통해 조직 및 OEM은 최신 브라우저 및 태블릿을 통해 비즈니스 분석가 및 비즈니스 사용자에게 풍부한 끌어서 놓기 시각화 및 분석 환경을 제공하여 보고서 및 대시 보드를 임시로 만들 수 있습니다. 완벽한 픽셀의 대시 보드 및 보고서를 제공합니다.
세 번째 제품 영역은 데이터 과학자, 기계 학습 알고리즘을 대상으로하는 예측 분석에 중점을 둡니다. 앞에서 언급 한 것처럼 신경망과 같은 데이터 변환 환경에 데이터 과학자를 통합하여 데이터 과학자가 모델링에서 프로덕션 환경으로 이동하여 예측에 대한 액세스 권한을 부여함으로써 비즈니스 프로세스에 매우 신속하고 빠르게 영향을 줄 수 있습니다.
이러한 모든 제품은 단일 민첩한 경험에 긴밀하게 통합되어 있으며 기업 고객에게 비즈니스 문제를 해결하는 데 필요한 유연성을 제공합니다. 우리는 전통적인 기술에서 빠르게 발전하는 빅 데이터 환경을보고 있습니다. EDW가 거의 끝났다는 빅 데이터 공간에서 일부 회사의 의견을 듣습니다. 실제로 엔터프라이즈 고객에게 보이는 것은 기존 비즈니스 및 IT 프로세스에 빅 데이터를 도입해야하며 해당 프로세스를 대체하지 않아야한다는 것입니다.
이 간단한 다이어그램은 데이터 통합 및 BI 사용 사례를 갖춘 일종의 EDW 배포 아키텍처 인 아키텍처의 요점을 보여줍니다. 이제이 다이어그램은 빅 데이터 아키텍처에 대한 Robin의 슬라이드와 유사하며 실시간 및 히스토리 데이터를 통합합니다. 새로운 데이터 소스와 실시간 요구 사항이 등장함에 따라 빅 데이터는 전체 IT 아키텍처의 추가 부분으로 간주됩니다. 이러한 새로운 데이터 소스에는 머신 생성 데이터, 비정형 데이터, 표준 볼륨 및 속도 및 빅 데이터에서 우리가들은 다양한 요구 사항이 포함됩니다. 기존 EDW 프로세스에는 적합하지 않습니다. Pentaho는 Hadoop 및 NoSQL과 긴밀하게 협력하여이 데이터의 수집, 데이터 처리 및 시각화를 단순화하고이 데이터를 기존 소스와 혼합하여 고객이 데이터 환경을 완전히 볼 수 있도록합니다. 우리는이를 통제 된 방식으로 수행하므로 IT 부서는 비즈니스 라인에 완벽한 분석 솔루션을 제공 할 수 있습니다.
마지막으로 빅 데이터 분석 및 통합에 대한 철학을 강조하고 싶습니다. 우리는 이러한 기술이 단일 통합 아키텍처와 함께 작동하는 것이 더 좋으며 다른 방법으로는 불가능한 많은 사용 사례를 가능하게한다고 생각합니다. 고객의 데이터 환경은 빅 데이터, Hadoop 및 NoSQL 그 이상입니다. 모든 데이터는 공정한 게임입니다. 또한 비즈니스 가치에 영향을 미치려면 빅 데이터 소스를 사용할 수 있어야합니다.
마지막으로, 우리는 데이터, IT 및 비즈니스 라인을 통해 기업에서 이러한 비즈니스 문제를 매우 효과적으로 해결하려면 빅 데이터 분석에 대한 통제되고 혼합 된 접근 방식으로 협력해야합니다. 얘기 할 시간을 주셔서 대단히 감사합니다, 에릭
에릭 : 내기. 아니, 좋은 일이야 Q & A에 도달하면서 아키텍처 측면으로 돌아가고 싶습니다. 나머지 프레젠테이션을 살펴보고 대단히 감사합니다. 지난 몇 년 동안 여러분은 확실히 빠르게 움직였습니다.
스티브, 계속해서 너에게 넘겨 줄게 아래쪽 화살표를 클릭하면됩니다. 스티브, 열쇠를 드리겠습니다 Steve Wilkes, 키보드에서 가장 먼 아래쪽 화살표를 클릭하십시오.
스티브 윌크스 : 우리는 간다.
에릭 : 당신은 간다.
스티브 : 그것은 당신이 나에게 준 훌륭한 소개입니다.
에릭 : 네.
Steve : 저는 Steve Wilkes입니다. WebAction의 CCO입니다. 우리는 지난 몇 년 동안 만 있었으며 그 이후로도 빠르게 움직였습니다. WebAction은 실시간 빅 데이터 분석 플랫폼입니다. Eric은 이전에 실시간이 얼마나 중요한지, 애플리케이션이 얼마나 실시간인지 언급했습니다. 당사 플랫폼은 실시간 앱을 구축하도록 설계되었습니다. 또한 점진적으로 구축 할 수있는 차세대 데이터 중심 앱을 활성화하고 사람들이 해당 앱에서 생성 된 데이터에서 대시 보드를 구축 할 수 있도록하지만 실시간에 중점을 둡니다.
당사의 플랫폼은 실제로 전체 엔드-투-엔드 플랫폼으로, 데이터 수집, 데이터 처리, 데이터 시각화에 이르기까지 모든 것을 수행합니다. 또한 기업 내 여러 유형의 사람들이 함께 협력하여 진정한 실시간 앱을 만들어 기업에서 발생한 일에 대한 통찰력을 제공합니다.
그리고 이것은 대부분의 사람들이 빅 데이터에서보고있는 것과는 조금 다릅니다. 따라서 지난 몇 년간 전통적 접근 방식은 전통적으로 빅 데이터 접근 방식은 다양한 소스에서이를 수집하는 것이 었습니다. 그런 다음 큰 저수지 나 호수 또는 원하는 곳에 쌓아 두십시오. 그런 다음 쿼리를 실행해야 할 때 처리하십시오. 대규모 히스토리 분석을 수행하거나 대량의 데이터에 대한 임시 쿼리를 수행 할 수도 있습니다. 이제는 특정 사용 사례에서 작동합니다. 그러나 기업에서 능동적으로 행동하기를 원할 때, 하루가 끝나거나 일주일이 지날 때 어떤 일이 잘못되었는지 알아보기보다는 실제로 무슨 일이 일어나고 있는지를 알고 싶다면 실제로 움직여야합니다. 실시간으로.
그리고 그것은 사물을 조금 바꿔줍니다. 처리를 중간으로 이동합니다. 따라서 효과적으로 기업 내에서 지속적으로 생성되는 대량의 데이터 스트림을 가져 와서 처리하면서 처리하고 있습니다. 그리고 당신이 그것을 얻을 때 처리하기 때문에, 당신은 모든 것을 저장할 필요가 없습니다. 중요한 정보 나 실제로 일어난 일을 기억해야 할 내용 만 저장할 수 있습니다. 따라서 도로를 따라 이동하는 차량의 GPS 위치를 추적하는 경우 실제로 1 초마다 위치를 신경 쓰지 않고 1 초마다 위치를 저장할 필요가 없습니다. 신경 써야하는데, 그들이이 장소를 떠났습니까? 그들이이 장소에 도착 했습니까? 고속도로를 운전 했습니까?
따라서 점점 더 많은 데이터가 생성 될 때 세 개의 V가 생성된다는 점을 고려해야합니다. Velocity는 기본적으로 매일 생성되는 데이터 양을 결정합니다. 생성되는 데이터가 많을수록 더 많이 저장해야합니다. 저장해야할수록 처리하는 데 시간이 오래 걸립니다. 그러나 얻을 수있는대로 처리 할 수 있다면 큰 이점을 얻을 수 있으며 이에 대응할 수 있습니다. 나중에 검색하지 않고 상황이 발생한다는 것을 알 수 있습니다.
따라서 당사 플랫폼은 확장 성이 뛰어나도록 설계되었습니다. 여기에는 3 개의 주요 부분, 즉 획득 부분, 처리 부분 및 플랫폼의 전달 시각화 부분이 있습니다. 수집 측면에서는 웹 로그 나 생성되는 다른 모든 로그가있는 응용 프로그램과 같은 시스템 생성 로그 데이터 만보고있는 것이 아닙니다. We can also go in and do change data capture from databases. So that basically enables us to, we've seen the ETL side that Will presented and traditional ETL you have to run queries against the databases. We can be told when things happen in the database. We change it and we capture it and receive those events. And then there's obviously the social feeds and live device data that's being pumped to you over TCP or ACDP sockets.
There's tons of different ways of getting data. And talking of volume and velocity, we're seeing volumes that are billions of events per day, right? So it's large, large amounts of data that is coming in and needs to be processed.
That is processed by a cluster of our servers. The servers all have the same architecture and are all capable of doing the same things. But you can configure them to, sort of, do different things. And within the servers we have a high-speed query processing layer that enables you to do some real-time analytics on the data, to do enrichments of the data, to do event correlation, to track things happening within time windows, to do predictive analytics based on patterns that are being seen in the data. And that data can then be stored in a variety places - the traditional RDBMS, enterprise data warehouse, Hadoop, big data infrastructure.
And the same live data can also be used to power real-time data-driven apps. Those apps can have a real-time view of what's going on and people can also be alerted when important things happen. So rather than having to go in at the end of the day and find out that something bad really happened earlier on the day, you could be alerted about it the second we spot it and it goes straight to the page draw down to find out what's going on.
So it changes the paradigm completely from having to analyze data after the fact to being told when interesting things are happening. And our platform can then be used to build data-driven applications. And this is really where we're focusing, is building out these applications. For customers, with customers, with a variety of different partners to show true value in real-time data analysis. So that allows people that, or companies that do site applications, for example, to be able track customer usage over time and ensure that the quality of service is being met, to spot real-time fraud or money laundering, to spot multiple logins or hack attempts and those kind of security events, to manage things like set-top boxes or other devices, ATM machines to monitor them in real time for faults, failures that have happened, could happen, will happen in the future based on predictive analysis. And that goes back to the point of streamlining operations that Eric mentioned earlier, to be able to spot when something's going to happen and organize your business to fix those things rather than having to call someone out to actually do something after the fact, which is a lot more expensive.
Consumer analytics is another piece to be able to know when a customer is doing something while they're still there in your store. Data sent to management to be able to in real time monitor resource usage and change where things are running and to be able to know about when things are going to fail in a much more timely fashion.
So that's our products in a nutshell and I'm sure we'll come back to some of these things in the Q&A session. 감사합니다.
Eric: Yes, indeed. Great job. Okay good. And now next stop in our lightning round, we've got Frank Sanders calling in from MarkLogic. I've known about these guys for a number of years, a very, very interesting database technology. So Frank, I'm turning it over to you. Just click anywhere in that. Use the down arrow on your keyboard and you're off to the races. 당신은 간다.
Frank Sanders: Thank you very much, Eric. So as Eric mentioned, I'm with a company called MarkLogic. And what MarkLogic does is we provide an enterprise NoSQL database. And perhaps, the most important capability that we bring to the table with regards to that is the ability to actually bring all of these disparate sources of information together in order to analyze, search and utilize that information in a system similar to what you're used to with traditional relational systems, right?
And some of the key features that we bring to the table in that regard are all of the enterprise features that you'd expect from a traditional database management system, your security, your HA, your DR, your backup are in store, your asset transactions. As well as the design that allows you to scale out either on the cloud or in the commodity hardware so that you can handle the volume and the velocity of the information that you're going to have to handle in order to build and analyze this sort of information.
And perhaps, the most important capability is that fact that we're scheme agnostic. What that means, practically, is that you don't have to decide what your data is going to look like when you start building your applications or when you start pulling those informations together. But over time, you can incorporate new data sources, pull additional information in and then use leverage and query and analyze that information just as you would with anything that was there from the time that you started the design. Okay?
So how do we do that? How do we actually enable you to load different sorts of information, whether it be text, RDF triples, geospatial data, temporal data, structured data and values, or binaries. And the answer is that we've actually built our server from the ground up to incorporate search technology which allows you to put information in and that information self describes and it allows you to query, retrieve and search that information regardless of its source or format.
And what that means practically is that - and why this is important when you're doing analysis - is that analytics and information is most important ones when it's properly contextualized and targeted, right? So a very important key part of any sort of analytics is search, and the key part is search analytics. You can't really have one without the other and successfully achieve what you set out to achieve. Right?
And I'm going to talk briefly about three and a half different use cases of customers that we have at production that are using MarkLogic to power this sort of analytics. 괜찮아. So the first such customer is Fairfax County. And Fairfax County has actually built two separate applications. One is based around permitting and property management. And the other, which is probably a bit more interesting, is the Fairfax County police events application. What the police events application actually does is it pulls information together like police reports, citizen reports and complaints, Tweets, other information they have such as sex offenders and whatever other information that they have access to from other agencies and sources. Then they allow them to visualize that and present this to the citizens so they can do searches and look at various crime activity, police activity, all through one unified geospatial index, right? So you can ask questions like, "what is the crime rate within five miles" or "what crimes occurred within five miles of my location?" 괜찮아.
Another user that we've got, another customer that we have is OECD. Why OECD is important to this conversation is because in addition to everything that we've enabled for Fairfax County in terms of pulling together information, right; all the information that you would get from all various countries that are members of the OECD that they report on from an economic perspective. We actually laid a target drill into that, right. So you can see on the left-hand side we're taking the view of Denmark specifically and you can kind of see a flower petal above it that rates it on different axes. Right? And that's all well and good. But what the OECD has done is they've gone a step further.
In addition to these beautiful visualizations and pulling all these information together, they're actually allowing you in real time to create your own better life index, right, which you can see on the right-hand side. So what you have there is you have a set of sliders that actually allow you to do things like rank how important housing is to you or income, jobs, community, education, environment, civic engagement, health, life satisfaction, safety and your work/life balance. And dynamically based on how you are actually inputting that information and weighting those things, MarkLogic's using its real-time indexing capability and query capability to actually then change how each and every one of these countries is ranked to give you an idea of how well your country or your lifestyle maps through a given country. Okay?
And the final example that I'm going to share is MarkMail. And what MarkMail really tries to demonstrate is that we can provide these capabilities and you can do the sort of analysis not only on structured information or information that's coming in that's numerical but actually on more loosely structured, unstructured information, right? Things like emails. And what we've seen here is we're actually pulling information like geolocation, sender, company, stacks and concepts like Hadoop being mentioned within the context of an email and then visualizing it on the map as well as looking at who those individuals and what list across that, a sent and a date. This where you're looking at things that are traditionally not structured, that may be loosely structured, but are still able to derive some structured analysis from that information without having to go to a great length to actually try and structure it or process it at a time. And that's it.
Eric: Hey, okay good. And we got one more. We've got Hannah Smalltree from Treasure Data, a very interesting company. And this is a lot of great content, folks. Thank you so much for all of you for bringing such good slides and such good detail. So Hannah, I just gave the keys to you, click anywhere and use the down arrow on your keyboard. You got it. 멀리 가져.
Hannah Smalltree: Thank you so much, Eric. This is Hannah Smalltree from Treasure Data. I'm a director with Treasure Data but I have a past as a tech journalist, which means that I appreciate two things. First of all, these can be long to sit through a lot of different descriptions of technology, and it can all sound like it runs together so I really want to focus on our differentiator. And the real-world applications are really important so I appreciate that all of my peers have been great about providing those.
Treasure Data is a new kind of big data service. We're delivered entirely on the cloud in a software as a service or managed-service model. So to Dr. Bloor's point earlier, this technology can be really hard and it can be very time consuming to get up and running. With Treasure Data, you can get all of these kinds of capabilities that you might get in a Hadoop environment or a complicated on-premise environment in the cloud very quickly, which is really helpful for these new big data initiatives.
Now we talk about our service in a few different phases. We offer some very unique collection capabilities for collecting streaming data so particularly event data, other kinds of real-time data. We'll talk a little bit more about those data types. That is a big differentiator for our service. As you get into big data or if you are already in it then you know that collecting this data is not trivial. When you think about a car with 100 sensors sending data every minute, even those 100 sensors sending data every ten minutes, that adds up really quickly as you start to multiply the amount of products that you have out there with sensors and it quickly becomes very difficult to manage. So we are talking with customers who have millions, we have customers who have billions of rows of data a day that they're sending us. And they're doing that as an alternative to try and to manage that themselves in a complicated Amazon infrastructure or even try to bring it into their own environment.
We have our own cloud storage environment. We manage it. We monitor it. We have a team of people that's doing all that tuning for you. And so the data flows in, it goes into our managed storage environment.
Then we have embedded query engines so that your analyst can go in and run queries and do some initial data discovery and exploration against the data. We have a couple of different query engines for it actually now. You can use SQL syntax, which your analysts probably know and love, to do some basic data discovery, to do some more complex analytics that are user-defined functions or even to do things as simple as aggregate that data and make it smaller so that you can bring it into your existing data warehouse environment.
You can also connect your existing BI tools, your Tableau, is a big partner of ours; but really most BIs, visualization or analytics tools can connect via our industry standard JDBC and ODBC drivers. So it gives you this complete set of big data capabilities. You're allowed to export your queries results or data sets anytime for free, so you can easily integrate that data. Treat this as a data refinery. I like to think of it more as a refinery than a lake because you can actually do stuff with it. You can go through, find the valuable information and then bring it into your enterprise processes.
The next slide, we talk about the three Vs of big data - some people say four or five. Our customers tend to struggle with the volume and velocity of the data coming at them. And so to get specific about the data types - Clickstream, Web access logs, mobile data is a big area for us, mobile application logs, application logs from custom Web apps or other applications, event logs. And increasingly, we have a lot of customers dealing with sensor data, so from wearable devices, from products, from automotive, and other types of machine data. So when I say big data, that's the type of big data that I'm talking about.
Now, a few use cases in perspective for you - we work with a retailer, a large retailer. They are very well known in Asia. They're expanding here in the US. You'll start to see stores; they're often called Asian IKEA, so, simple design. They have a loyalty app and a website. And in fact, using Treasure Data, they were able to deploy that loyalty app very quickly. Our customers get up and running within days or weeks because of our software and our service architecture and because we have all of the people doing all of that hard work behind the scenes to give you all of those capabilities as a service.
So they use our service for mobile application analytics looking at the behavior, what people are clicking on in their mobile loyalty application. They look at the website clicks and they combine that with our e-commerce and POS data to design more efficient promotions. They actually wanted to drive people into stores because they found that people, when they go into stores spend more money and I'm like that; to pick up things, you spend more money.
Another use case that we're seeing in digital video games, incredible agility. They want to see exactly what is happening in their game, and make changes to that game even within hours of its release. So for them, that real-time view is incredibly important. We just released a game but we noticed in the first hour that everyone is dropping off at Level 2; how are we going to change that? They might change that within the same day. So real time is very important. They're sending us billions of event logs per day. But that could be any kind of mobile application where you want some kind of real-time view into how somebody's using that.
And finally, a big area for us is our product behavior and sensor analytics. So with sensor data that's in cars, that's in other kinds of machines, utilities, that's another area for us, in wearable devices. We have research and development teams that want to quickly know what the impact of a change to a product is or people interested in the behavior of how people are interacting with the product. And we have a lot more use cases which, of course, we're happy to share with you.
And then finally, just show you how this can fit into your environment, we offer again the capability to collect that data. We have very unique collection technology. So again, if real-time collection is something that you're struggling with or you anticipate struggling with, please come look at the Treasure Data service. We have really made capabilities for collecting streaming data. You can also bulk load your data, store it, analyze it with our embedded query engines and then, as I mentioned, you can export it right to your data warehouse. I think Will mentioned the need to introduce big data into your existing processes. So not go around or create a new silo, but how do you make that data smaller and then move it into your data warehouse and you can connect to your BI, visualization and advanced analytics tools.
But perhaps, the key points I want to leave you with are that we are managed service, that's software as a service; it's very cost effective. A monthly subscription service starting at a few thousand dollars a month and we'll get you up and running in a matter of days or weeks. So compare that with the cost of months and months of building your own infrastructure and hiring those people and finding it and spending all that time on infrastructure. If you're experimenting or if you need something yesterday, you can get up and running really quickly with Treasure Data.
And I'm just pointing you to our website and to our starter service. If you're a hands-on person who likes to play, please check out our starter service. You can get on, no credit card required, just name and email, and you can play with our sample data, load up your own data and really get a sense of what we're talking about. So thanks so much. Also, check our website. We were named the Gartner Cool Vendor in Big Data this year, very proud of that. And you can also get a copy of that report for free on our website as well as many other analyst white papers. So thanks so much.
Eric: Okay, thank you very much. We've got some time for questions here, folks. We'll go a little bit long too because we've got a bunch of folks still on the line here. And I know I've got some questions myself, so let me go ahead and take back control and then I'm going to ask a couple of questions. Robin and Kirk, feel free to dive in as you see fit.
So let me go ahead and jump right to one of these first slides that I checked out from Pentaho. So here, I love this evolving big data architecture, can you kind of talk about how it is that this kind of fits together at a company? Because obviously, you go into some fairly large organization, even a mid-size company, and you're going to have some people who already have some of this stuff; how do you piece this all together? Like what does the application look like that helps you stitch all this stuff together and then what does the interface look like?
Will: Great question. The interfaces are a variety depending on the personas involved. But as an example, we like to tell the story of - one of the panelists mentioned the data refinery use case - we see that a lot in customers.
One of our customer examples that we talk about is Paytronix, where they have that traditional EDW data mart environment. They are also introducing Hadoop, Cloudera in particular, and with various user experiences in that. So first there's an engineering experience, so how do you wire all these things up together? How do you create the glue between the Hadoop environment and EDW?
And then you have the business user experience which we talked about, a number of BI tools out there, right? Pentaho has a more embeddable OEM BI tool but there are great ones out there like Tableau and Excel, for instance, where folks want to explore the data. But usually, we want to make sure that the data is governed, right? One of the questions in the discussions, what about single-version experience, how do you manage that, and without the technology like Pentaho data integration to blend that data together not on the glass but in the IT environments. So it really protects and governs the data and allows for a single experience for the business analyst and business users.
Eric: Okay, good. That's a good answer to a difficult question, quite frankly. And let me just ask the question to each of the presenters and then maybe Robin and Kirk if you guys want to jump in too. So I'd like to go ahead and push this slide for WebAction which I do think is really a very interesting company. Actually, I know Sami Akbay who is one of the co-founders, as well. I remember talking to him a couple years ago and saying, "Hey man, what are you doing? What are you up to? I know you've got to be working on something." And of course, he was. He was working on WebAction, under the covers here.
A question came in for you, Steve, so I'll throw it over to you, of data cleansing, right? Can you talk about these components of this real-time capability? How do you deal with issues like data cleansing or data quality or how does that even work?
Steve: So it really depends on where you're getting your feeds from. Typically, if you're getting your feeds from a database as you change data capture then, again, it depends there on how the data was entered. Data cleansing really becomes a problem when you're getting your data from multiple sources or people are entering it manually or you kind of have arbitrary texts that you have to try and pull things out of. And that could certainly be part of the process, although that type simply doesn't lend itself to true, kind of, high-speed real-time processing. Data cleansing, typically, is an expensive process.
So it may well be that that could be done after the fact in the store site. But the other thing that the platform is really, really good at is correlation, so in correlation and enrichment of data. You can, in real time, correlate the incoming data and check to see whether it matches a certain pattern or it matches data that's being retrieved from a database or Hadoop or some other store. So you can correlate it with historical data, is one thing you could do.
The other thing that you can do is basically do analysis on that data and see whether it kind of matches certain required patterns. And that's something that you can also do in real time. But the traditional kind of data cleansing, where you're correcting company names or you're correcting addresses and all those types of things, those should probably be done in the source or kind of after the fact, which is very expensive and you pray that they won't do those in real time.
Eric: Yeah. And you guys are really trying to address the, of course, the real-time nature of things but also get the people in time. And we talked about, right, I mentioned at the top of the hour, this whole window of opportunity and you're really targeting specific applications at companies where you can pull together data not going the usual route, going this alternate route and do so in such a low latency that you can keep customers. For example, you can keep people satisfied and it's interesting, when I talked to Sami at length about what you guys are doing, he made a really good point. He said, if you look at a lot of the new Web-based applications; let's look at things like Twitter, Bitly or some of these other apps; they're very different than the old applications that we looked at from, say, Microsoft like Microsoft Word.
I often use Microsoft as sort of a whipping boy and specifically Word to talk about the evolution of software. Because Microsoft Word started out as, of course, a word processing program. I'm one of those people who remember Word Perfect. I loved being able to do the reveal keys or the reveal code, basically, which is where you could see the actual code in there. You could clean something up if your bulleted list was wrong, you can clean it up. Well, Word doesn't let you do that. And I can tell you that Word embeds a mountain of code inside every page that you do. If anyone doesn't believe me, then go to Microsoft Word, type "Hello World" and then do "Export as" or "Save as" .html. Then open that document in a text editor and that will be about four pages long of codes just for two words.
So you guys, I thought it was very interesting and it's time we talked about that. And that's where you guys focus on, right, is identifying what you might call cross-platform or cross-enterprise or cross-domain opportunities to pull data together in such quick time that you can change the game, right?
Steve: Yeah, absolutely. And one of the keys that, I think, you did elude to, anyway, is you really want to know about things happening before your customers do or before they really, really become a problem. As an example are the set-top boxes. Cable boxes, they emit telemetry all the time, loads and loads of telemetry. And not just kind of the health of the box but it's what you're watching and all that kind of stuff, right? The typical pattern is you wait till the box fails and then you call your cable provider and they'll say, "Well, we will get to you sometime between the hours of 6am and 11pm in the entire month of November." That isn't a really good customer experience.
But if they could analyze that telemetry in real time then they could start to do things like that we know these boxes are likely to fail in the next week based historical patterns. Therefore we'll schedule our cable repair guy to turn up at this person's house prior to it failing. And we'll do that in a way that suits us rather than having to send him from Santa Cruz up to Sunnyvale. We'll schedule everything in a nice order, traveling salesman pattern, etc., so that we can optimize our business. And so the customer is happy because they don't have a failing cable box. And the cable provider is happy because they have just streamlined things and they don't have to send people all over the place. That's just a very quick example. But there are tons and tons of examples where knowing about things as they happen, before they happen, can save companies a fortune and really, really improve their customer relations.
Eric: Yeah, right. No doubt about it. Let's go ahead and move right on to MarkLogic. As I mentioned before, I've known about these guys for quite some time and so I'll bring you into this, Frank. You guys were far ahead of the whole big data movement in terms of building out your application, it's really database. But building it out and you talked about the importance of search.
So a lot of people who followed the space know that a lot of the NoSQL tools out there are now bolting on search capabilities whether through third parties or they try to do their own. But to have that search already embedded in that, baked-in so to speak, really is a big deal. Because if you think about it, if you don't have SQL, well then how do you go in and search the data? How do you pull from that data resource? And the answer is to typically use search to get to the data that you're looking for, right?
So I think that's one of the key differentiators for you guys aside being able to pull data from all these different sources and store that data and really facilitate this sort of hybrid environment. I'm thinking that search capability is a big deal for you, right?
Frank: Yeah, absolutely. In fact, that's the only way to solve the problem consistently when you don't know what all the data is going to look like, right? If you cannot possibly imagine all the possibilities then the only way to make sure that you can locate all the information that you want, that you can locate it consistently and you can locate it regardless of how you evolve your data model and your data sets is to make sure you give people generic tools that allow them to interrogate that data. And the easiest, most intuitive way to do that is through a search paradigm, right? And through the same approach in search takes where we created an inverted index. You have entries where you can actually look into those and then find records and documents and rows that actually contain the information you're looking for to then return it to the customer and allow them to process it as they see fit.
Eric: Yeah and we talked about this a lot, but you're giving me a really good opportunity to kind of dig into it - the whole search and discovery side of this equation. But first of all, it's a lot of fun. For anyone who likes that stuff, this is the fun part, right? But the other side of the equation or the other side of the coin, I should say, is that it really is an iterative process. And you got to be able to - here I'll be using some of the marketing language - have that conversation with the data, right? In other words, you need to be able to test the hypothesis, play around with it and see how that works. Maybe that's not there, test something else and constantly change things and iterate and search and research and just think about stuff. And that's a process. And if you have big hurdles, meaning long latencies or a difficult user interface or you got to go ask IT; that just kills the whole analytical experience, right?
So it's important to have this kind of flexibility and to be able to use searches. And I like the way that you depicted it here because if we're looking at searching around different, sort of, concepts or keys, if you will, key values and they're different dimensions. You want to be able to mix and match that stuff in order to enable your analyst to find useful stuff, right?
Frank: Yeah, absolutely. I mean, hierarchy is an important thing as well, right? So that when you include something like a title, right, or a specific term or value, that you can actually point to the correct one. So if you're looking for a title of an article, you're not getting titles of books, right? Or you're not getting titles of blog posts. The ability to distinguish between those and through the hierarchy of the information is important as well.
You pointed out earlier the development, absolutely, right? The ability for our customers to actually pull in new data sources in a matter of hours, start to work with them, evaluate whether or not they're useful and then either continue to integrate them or leave them by the wayside is extremely valuable. When you compare it to a more traditional application development approach where what you end up doing is you have to figure out what data you want to ingest, source the data, figure out how you're going to fit it in your existing data model or model that in, change that data model to incorporate it and then actually begin the development, right? Where we kind of turn that on our head and say just bring it to us, allow you to start doing the development with it and then decide later whether or not you want to keep it or almost immediately whether or not it's of value.
Eric: Yeah, it's a really good point. That's a good point. So let me go ahead and bring in our fourth presenter here, Treasure Data. I love these guys. I didn't know much about them so I'm kind of kicking myself. And then Hannah came to us and told us what they were doing. And Hannah mentioned, she was a media person and she went over to the dark side.
Hannah: I did, I defected.
Eric: That's okay, though, because you know what we like in the media world. So it's always nice when a media person goes over to the vendor side because you understand, hey, this stuff is not that easy to articulate and it can be difficult to ascertain from a website exactly what this product does versus what that product does. And what you guys are talking about is really quite interesting. Now, you are a cloud-managed service. So any data that someone wants to use they upload to your cloud, is that right? And then you will ETL or CDC, additional data up to the cloud, is that how that works?
Hannah: Well, yeah. So let me make an important distinction. Most of the data, the big data, that our customers are sending us is already outside the firewall - mobile data, sensor data that's in products. And so we're often used as an interim staging area. So data is not often coming from somebody's enterprise into our service so much as it's flowing from a website, a mobile application, a product with lots of sensors in it - into our cloud environment.
Now if you'd like to enrich that big data in our environment, you can definitely bulk upload some application data or some customer data to enrich that and do more of the analytics directly in the cloud. But a lot of our value is around collecting that data that's already outside the firewall, bringing together into one place. So even if you do intend to bring this up sort of behind your firewall and do more of your advanced analytics or bring it into your existing BI or analytics environment, it's a really good staging point. Because you don't want to bring a billion rows of day into your data warehouse, it's not cost effective. It's even difficult if you're planning to store that somewhere and then batch upload.
So we're often the first point where data is getting collected that's already outside firewall.
Eric: Yeah, that's a really good point, too. Because a lot of companies are going to be nervous about taking their proprietary customer data, putting it up in the cloud and to manage the whole process.
Hannah: Yeah.
Eric: And what you're talking about is really getting people a resource for crunching those heavy duty numbers of, as you suggest, data that's third party like mobile data and the social data and all that kind of fun stuff. That's pretty interesting.
Hannah: Yeah, absolutely. And probably they are nervous about the products because the data are already outside. And so yeah, before bringing it in, and I really like that refinery term, as I mentioned, versus the lake. So can you do some basic refinery? Get the good stuff out and then bring it behind the firewall into your other systems and processes for deeper analysis. So it's really all data scientists can do, real-time data exploration of this new big data that's flowing in.
Eric: Yeah, that's right. Well, let me go ahead and bring in our analysts and we'll kind of go back in reverse order. I'll start with you, Robin, with respect to Treasure Data and then we'll go to Kirk for some of the others. And then back to Robin and back to Kirk just to kind of get some more assessment of this.
And you know the data refinery, Robin, that Hannah is talking about here. I love that concept. I've heard only a few people talking about it that way but I do think that you certainly mentioned that before. And it really does speak to what is actually happening to your data. Because, of course, a refinery, it basically distills stuff down to its root level, if you think about oil refineries. I actually studied this for a while and it's pretty basic, but the engineering that goes into it needs to be exactly correct or you don't get the stuff that you want. So I think it's a great analogy. What do you think about this whole concept of the Treasure Data Cloud Service helping you tackle some of those very specific analytical needs without having to bring stuff in-house?
Robin: Well, I mean, obviously depending on the circumstances to how convenient that is. But anybody that's actually got already made process is already going to put you ahead of the game if you haven't got one yourself. This is the first takeaway for something like that. If somebody assembled something, they've done it, it's proven in the marketplace and therefore there's some kind of value in effect, well, the work is already gone into it. And there's also the very general fact that refining of data is going to be a much bigger issue than it ever was before. I mean, it is not talked about, in my opinion anyway, it's not talked about as much as it should be. Simply apart from the fact that size of the data has grown and the number of sources and the variety of those sources has grown quite considerably. And the reliability of the data in terms of whether it's clean, they need to disambiguate the data, all sorts of issues that rise just in terms of the governance of the data.
So before you actually get around to being able to do reliable analysis on it, you know, if your data's dirty, then your results will be skewed in some way or another. So that is something that has to be addressed, that has to be known about. And the triangulator of providing, as far as I can see, a very viable service to assist in that.
Eric: Yes, indeed. Well, let me go ahead and bring Kirk back into the equation here just real quickly. I wanted to take a look at one of these other slides and just kind of get your impression of things, Kirk. So maybe let's go back to this MarkLogic slide. And by the way, Kirk provided the link, if you didn't see it folks, to some of his class discovery slides because that's a very interesting concept. And I think this is kind of brewing at the back of my mind, Kirk, as I was talking about this a moment ago. This whole question that one of the attendees posed about how do you go about finding new classes. I love this topic because it really does speak to the sort of, the difficult side of categorizing things because I've always had a hard time categorizing stuff. I'm like, "Oh, god, I can fit in five categories, where do I put it?" So I just don't want to categorize anything, right?
And that's why I love search, because you don't have to categorize it, you don't have to put it in the folder. Just search for it and you'll find it if you know how to search. But if you're in that process of trying to segment, because that's basically what categorization is, it's segmenting; finding new classes, that's kind of an interesting thing. Can you kind of speak to the power of search and semantics and hierarchies, for example, as Frank was talking about with respect to MarkLogic and the role that plays in finding new classes, what do you think about that?
Kirk: Well, first of all, I'd say you are reading my mind. Because that was what I was thinking of a question even before you were talking, this whole semantic piece here that MarkLogic presented. And if you come back to my slide, you don't have to do this, but back on the slide five on what I presented this afternoon; I talked about this semantics that the data needs to be captured.
So this whole idea of search, there you go. I firmly believe in that and I've always believed in that with big data, sort of take the analogy of Internet, I mean, just the Web, I mean having the world knowledge and information and data on a Web browser is one thing. But to have it searchable and retrievable efficiently as one of the big search engine companies provide for us, then that's where the real power of discovery is. Because connecting the search terms, sort of the user interests areas to the particular data granule, the particular webpage, if you want to think the Web example or the particular document if you're talking about document library. Or a particular customer type of segment if that's your space.
And semantics gives you that sort of knowledge layering on top of just a word search. If you're searching for a particular type of thing, understanding that a member of a class of such things can have a certain relationship to other things. Even include that sort of relationship information and that's a class hierarchy information to find things that are similar to what you're looking for. Or sometimes even the exact opposite of what you're looking for, because that in a way gives you sort of additional core of understanding. Well, probably something that's opposite of this.
Eric: Yeah.
Kirk: So actually understand this. I can see something that's opposite of this. And so the semantic layer is a valuable component that's frequently missing and it's interesting now that this would come up here in this context. Because I've taught a graduate course in database, data mining, learning from data, data science, whatever you want to call it for over a decade; and one of my units in this semester-long course is on semantics and ontology. And frequently my students would look at me like, what does this have to do with what we're talking about? And of course at the end, I think we do understand that putting that data in some kind of a knowledge framework. So that, just for example, I'm looking for information about a particular customer behavior, understanding that that behavior occurs, that's what the people buy at a sporting event. What kind of products do I offer to my customers when I notice on their social media - on Twitter or Facebook - that they say they're going to a sporting event like football, baseball, hockey, World Cup, whatever it might be.
Okay, so sporting event. So they say they're going to, let's say, a baseball game. Okay, I understand that baseball is a sporting event. I understand that's usually a social and you go with people. I understand that it's usually in an outdoor space. I mean, understanding all those contextual features, it enables sort of, more powerful, sort of, segmentation of the customer involved and your sort of personalization of the experience that you're giving them when, for example, they're interacting with your space through a mobile app while they're sitting in a stadium.
So all that kind of stuff just brings so much more power and discovery potential to the data in that sort of indexing idea of indexing data granules by their semantic place and the knowledge space is really pretty significant. And I was really impressed that came out today. I think it's sort of a fundamental thing to talk.
Eric: Yeah, it sure is. It's very important in the discovery process, it's very important in the classification process. And if you think about it, Java works in classes. It's an object oriented, I guess, more or less, you could say form of programming and Java works in classes. So if you're actually designing software, this whole concept of trying to find new classes is actually pretty important stuff in terms of the functionality you're trying to deliver. Because especially in this new wild, wooly world of big data where you have so much Java out there running so many of these different applications, you know there are 87, 000 ways or more to get anything done with a computer, to get any kind of bit of functionality done.
One of my running jokes when people say, "Oh, you can build a data warehouse using NoSQL." I'm like, "well, you could, yeah, that's true. You could also build a data warehouse using Microsoft Word." It's not the best idea, it's not going to perform very well but you can actually do it. So the key is you have to find the best way to do something.
Go ahead.
Kirk: Let me just respond to that. It's interesting you mentioned the Java class example which didn't come into my mind until you said it. One of the aspects of Java and classes and that sort of object orientation is that there are methods that bind to specific classes. And this is really the sort of a message that I was trying to send in my presentation and that once you understand some of these data granules - these knowledge nuggets, these tags, these annotations and these semantic labels - then you can bind a method to that. They basically have this reaction or this response and have your system provide this sort of automated, proactive response to this thing the next time that we see it in the data stream.
So that concept of binding actions and methods to specific class is really one of the powers of automated real-time analytics. And I think that you sort of hit on something.
Eric: Good, good, good. Well, this is good stuff. So let's see, Will, I want to hand it back to you and actually throw a question to you from the audience. We got a few of those in here too. And folks, we're going long because we want to get some of these great concepts in these good questions.
So let me throw a question over to you from one of the audience numbers who's saying, "I'm not really seeing how business intelligence is distinguishing cause and effect." In other words, as the systems are making decisions based on observable information, how do they develop new models to learn more about the world? It's an interesting point so I'm hearing a cause-and-effect correlation here, root cause analysis, and that's some of that sort of higher-end stuff in the analytics that you guys talk about as opposed to traditional BI, which is really just kind of reporting and kind of understanding what happened. And of course, your whole direction, just looking at your slide here, is moving toward that predictive capability toward making those decisions or at least making those recommendations, right? So the idea is that you guys are trying to service the whole range of what's going on and you're understanding that the key, the real magic, is in the analytical goal component there on the right.
Will: Absolutely. I think that question is somewhat peering into the future, in the sense that data science, as I mentioned before, we saw the slide with the requirements of the data scientist; it's a pretty challenging role for someone to be in. They have to have that rich knowledge of statistics and science. You need to have the domain knowledge to apply your mathematical knowledge to the domains. So what we're seeing today is there aren't these out-of-the-box predictive tools that a business user, like, could pull up in Excel and automatically predict their future, right?
It does require that advanced knowledge in technology at this stage. Now someday in the future, it may be that some of these systems, these scale-out systems become sentient and start doing some wild stuff. But I would say at this stage, you still have to have a data scientist in the middle to continue to build models, not these models. These predictive models around data mining and such are highly tuned in and built by the data scientist. They're not generated on their own, if you know what I mean.
Eric: Yeah, exactly. That's exactly right. And one of my lines is "Machines don't lie, at least not yet."
Will: Not yet, exactly.
Eric: I did read an article - I have to write something about this - about some experiment that was done at a university where they said that these computer programs learned to lie, but I got to tell you, I don't really believe it. We'll do some research on that, folks.
And for the last comment, so Robin I'll bring you back in to take a look at this WebAction platform, because this is very interesting. This is what I love about a whole space is that you get such different perspectives and different angles taken by the various vendors to serve very specific needs. And I love this format for our show because we got four really interesting vendors that are, frankly, not really stepping on each others' toes at all. Because we're all doing different bits and pieces of the same overall need which is to use analytics, to get stuff done.
But I just want to get your perspective on this specific platform and their architecture. How they're going about doing things. I find it pretty compelling. 어떻게 생각해?
Robin: Well, I mean, it's pointed at extremely fast results from streaming data and as search, you have to architect for that. I mean, you're not going to get away with doing anything, amateurish, as we got any of that stuff. I hear this is extremely interesting and I think that one of the things that we witnessed over the past; I mean I think you and I, our jaw has been dropping more and more over the past couple of years as we saw more and more stuff emerge that was just like extraordinarily fast, extraordinarily smart and pretty much unprecedented.
This is obviously, WebAction, this isn't its first rodeo, so to speak. It's actually it's been out there taking names to a certain extent. So I don't see but supposed we should be surprised that the architecture is fairly switched but it surely is.
Eric: Well, I'll tell you what, folks. We burned through a solid 82 minutes here. I mean, thank you to all those folks who have been listening the whole time. If you have any questions that were not answered, don't be shy, send an email to yours truly. We should have an email from me lying around somewhere. And a big, big thank you to both our presenters today, to Dr. Kirk Borne and to Dr. Robin Bloor.
Kirk, I'd like to further explore some of that semantic stuff with you, perhaps in a future webcast. Because I do think that we're at the beginning of a very new and interesting stage now. What we're going to be able to leverage a lot of the ideas that the people have and make them happen much more easily because, guess what, the software is getting less expensive, I should say. It's getting more usable and we're just getting all this data from all these different sources. And I think it's going to be a very interesting and fascinating journey over the next few years as we really dig into what this stuff can do and how can it improve our businesses.
So big thank you to Techopedia as well and, of course, to our sponsors - Pentaho, WebAction, MarkLogic and Treasure Data. And folks, wow, with that we're going to conclude, but thank you so much for your time and attention. We'll catch you in about a month and a half for the next show. And of course, the briefing room keeps on going; radio keeps on going; all our other webcast series keep on rocking and rolling, folks. 정말 고맙습니다. We'll catch you next time. 안녕.