사업 데이터 레이크, 설명

데이터 레이크, 설명

비디오: 젤리 몬스터 ë°˜ì§ ì ´ ì¹µí…Œì ¼ 액체괴물 만들기!! í 르는 ì  í†  ì•¡ê´´ í ´ë ˆì ´ 슬ë (십월 2024)

비디오: 젤리 몬스터 ë°˜ì§ ì ´ ì¹µí…Œì ¼ 액체괴물 만들기!! í 르는 ì  í†  ì•¡ê´´ í ´ë ˆì ´ 슬ë (십월 2024)
Anonim

빅 데이터 혁명은 기업의 업무 방식을 재정의했습니다. 데이터는 모든 것을 뒷받침합니다. Apache Hadoop 및 Spark와 같은 오픈 소스 도구를 사용하여 방대한 양의 데이터를 실시간으로보다 쉽게 ​​수집, 처리 및 저장할 수있게했을뿐만 아니라 비즈니스 인텔리전스 (BI) 및 데이터 시각화 도구가 분석의 표면을 긁어 내기 시작했습니다. 핵심 비즈니스 의사 결정을 알리기 위해 해당 데이터를 변환

비록 빅 데이터와 BI 기술이 얼마나 발전 했음에도 불구하고, 우리는 여전히 막대한 양의 지속적으로 데이터를 처리하고 있으며 분석하기에 적합한 지점을 찾으면 끝없는 건초 더미에서 바늘을 다이빙하는 것처럼 느껴집니다. 해결책? 건초 더미를 재 설계하십시오.

데이터를보다 쉽게 ​​실험 할 수 있도록보다 확장 가능한 방식으로 데이터를 구성하는 새로운 유형의 클라우드 기반 엔터프라이즈 아키텍처 인 데이터 레이크를 입력하십시오. 엄격한 스키마와 사일로에 고정되지 않고 탐색 및 조작에 더 개방적입니다. Forrester Research의 엔터프라이즈 아키텍처 연구원 인 Nasry Angel은 왜 엔터프라이즈가 데이터 레이크 아키텍처를 수용하고 있는지 설명했습니다.

엔젤은“이것은 진부하게 들리지만 효과적인 현대 데이터 환경에 대해 생각하면 훨씬 실험적이다. "빠른 학습과 빠른 실패가 가능해야합니다. 과거에는 특히 창고에서 데이터를 관리하는 것이 소수점 이하로 품질에 관한 것이 었습니다. 모든 것이 완전히 정확하고 진실 된지 확인하십시오. 그런 다음 완벽한 픽셀 보고서를 생성하여 5, 000 명의 사용자에게 제공합니다.

"오늘날은 더 과학적인 과정입니다. 테스트하고 싶은 데이터에 대한 가설을 세우고 데이터를 가지고 놀고, 섞고, 매치하고, 다른 것을 시도하고 제품을 생산하기 전에 다른 것을 시험해 볼 수 있기를 원합니다."

데이터 레이크에 무엇이 있습니까?

데이터 레이크는 스토리지 저장소입니다. 데이터웨어 하우스 또는 "데이터 마트"와 달리 Angel은 데이터 레이크가 스키마에 의존하는 데이터웨어 하우스의 고정 된 구조화 된 환경이 아니라 여러 노드에 분산되어 있다고 설명했습니다 (아래 인포 그래픽 참조).

"데이터 레이크를 사용하면 데이터를 쓸 때 스키마를 적용 할 수 있습니다. 데이터웨어 하우스는 읽기시 스키마를 수행해야합니다. 따라서 데이터웨어 하우스는 기본적으로 컨텍스트를 이해하기 전에 데이터를 모델링해야합니다. 천사는 말했다.

출처: JustOne Database, Inc. (전체 그래픽을 보려면 위의 그래픽을 클릭하십시오.)

"일반적으로웨어 하우스에서는 IT 전문가가 최고의 데이터 모델이라고 생각하는 것을 생각해 내고 최종 데이터 사용자는 아닙니다. 생산성과 비즈니스 가치를 어떻게 저해하는지 신속하게 파악할 수 있습니다.". "궁극적으로, 귀하와 비즈니스 사용자는 데이터 구조에 대한 결정을 내리는 사람이어야합니다. 그리고 데이터 레이크에서 먼저 데이터를 탐색하고 파악한 다음 가장 잘 정리할 스키마를 파악할 수 있습니다."

데이터 레이크는 일반적으로 하둡을 기반으로 구축되며 Hortonworks 및 MapR과 같은 엔터프라이즈 하둡 배포판은 데이터 레이크 아키텍처를 제공합니다. 기업은 또한 AWS (Amazon Web Services) 및 Microsoft Azure를 포함한 IaaS (Infrastructure-as-a-Service) 클라우드를 사용하여 데이터 레이크를 구축 할 수 있습니다. Amazon의 EC2 (Elastic Compute Cloud)는 데이터 레이크를 지원하는 반면 Microsoft는 실시간 데이터를 저장 및 분석하기위한 전용 Azure Data Lake 플랫폼을 보유하고 있습니다. Angel은 데이터 레이크가 빅 데이터 공간 내에서 비즈니스가 합리적으로 자신감을 가지고 투자를 시작할 수있는 지점까지 성숙하고 있다고 말했다.

엔젤은“몇 년 전 하둡이 가장 큰 분노였다. 이제 하둡이 상품화되는 시점에 도달하고있다”고 말했다. "문제는 하둡이 아니라 언제, 무엇을 할 것인가이다. 데이터 레이크와 같은 일반적인 장소에 데이터를 얻은 후에 하둡 위에 어떤 유형의 애플리케이션을 구축 할 것인가? 이제 데이터를 사용하여 특정 비즈니스 요구를 충족시키는 응용 프로그램을 개발하는 것입니다."

데이터 저수지 위에 구축

빅 데이터에서 가장 흥미로운 부분은 잠금 해제 가능성입니다. 다양한 데이터 조합 및 비즈니스 결과를 가지고 실험하고 실험 할 데이터 레이크를 설정 한 후에는 혁신적인 분석 기술을 계층화 할 수 있습니다.

기계 학습 (ML) 알고리즘은 이미 클라우드 인프라 구조의 일부가되고 있으며 연구원들은 복잡한 패턴을 인식하기 위해 기계와 데이터 시스템을 훈련시키기 위해 딥 러닝 기술과 신경망을 지속적으로 개선하고 있습니다. 예측 분석은 점점 더 많은 데이터 도구와 엔터프라이즈 플랫폼에 적용되고 있으며 예측 점수 매기기 및 CRM (고객 관계 관리)을위한 자동화 된 세분화에서 금융 시장 추세 파악 및 기계의 기계적인 고장을 사전에 파악하는 데 이르기까지 모든 분야에 사용됩니다.

이 모든 것은 비즈니스가 필요에 따라 공급하고 확장하는 모든 데이터 저장소에서 발생합니다. Angel은 데이터 레이크가 조직의 기능을 변화시키는 것을 본 실제 사용 사례에 대해 이야기했습니다.

"저는 변호사, 회계사, 컨설턴트 등의 다양한 잡지를 보유하고있는 출판 회사와 협력하고 있었으며 각 출판물에는 자체 데이터웨어 하우스가있었습니다. 실제로 각 출판물에는 고유 한 데이터웨어 하우스가있었습니다. 사일로”라고 Angel이 설명했습니다.

"따라서 우리는웨어 하우스에서 모든 데이터를 추출하여 데이터 레이크에 넣고 데이터 레이크를 통해 사일로 전체를 볼 수있었습니다. 그들은 데이터를 탐색하고 데이터를 검색 할 수 있었으며이 모든 다른 간행물에서 모든 잡지의 고객은 사이버 보안에 관심을 보였습니다. 사이버 보안에 대한 독자층은이 모든 역할에 걸쳐 강력했습니다. 그래서 그들은 무엇을 했습니까? 사이버 보안을 연례 회의의 주제로 만들었습니다."

Angel이 이야기 한 또 다른 예는 전자 상거래입니다. 온라인 아트 소매업 체인 또 다른 고객은 많은 정보를 데이터 레이크에 쏟아서 저장소로 사용할뿐만 아니라 비즈니스 통찰력을 모으기위한 일종의 캔버스로 사용했습니다. 소매 업체는 거래 데이터 (주문, 송장, 지불 등), 클릭 스트림 데이터 (각 웹 사이트 방문자의 클릭 및 페이지 연속) 및 소매 업체 데이터웨어 하우스의 데이터를 모두 호수로 가져와 쇼핑 카트와의 전투에 사용했습니다. 포기 및 전환.

엔젤은“데이터 레이크를 기반으로 구축하여 복잡한 비즈니스 통찰력을 형성하는 데 사용하고 싶다”고 말했다. "미술 소매 업체는 고객의 클릭 스트림 데이터를보고 클릭을 고객 프로필과 일치시킨 다음 거래 데이터를 사용하여 고객이 과거에 구매 한 것을 확인하고 이러한 통찰력을 사용하여 매우 구체적인 이메일 캠페인을 운영 할 수있었습니다. 따라서 고객이 포기한 경우 소매점에서 2 시간 후에 추적 할 수 있으며 '피카소를 확인하는 것을 보았습니다. 다시 보려면 링크가 있습니다.'

데이터 레이크는 모든 종류의 비즈니스 사용 사례에 보편적으로 적용 할 수 있습니다. 그러나, 아키텍처로의 마이그레이션을 고려중인 CTO (Chief Technical Officer) 또는 CISO (Chief Information Security Officer)의 경우 Angel은 데이터웨어 하우스가 아직 오래되지 않았다고 강조했습니다. 클라우드 제공 업체를 사용하든 맞춤형 Hadoop 배포를 사용하든 대부분의 엔터프라이즈 조직에는 비즈니스에 여전히 두 가지가 모두 필요합니다.

데이터 레이크를 사용하면 특정 스키마에 부합하는 데이터의 한계를 제거하여 비교할 수없는 통찰력을 얻을 수 있으며, AWS와 같은 저렴하고 유연한 클라우드 스토리지를 사용하여 확장 및 축소 할 때 총 소유 비용이 훨씬 낮아집니다. 실제로 사용하는 처리 능력을 지불합니다. 데이터웨어 하우스를 운영하는 것은 비용이 많이 들고 결과적으로 IT 전문가가 어떤 데이터가 들어오고 나가는지를 더 선택적으로 만듭니다. 그러나 기업에서 가장 중요한 미션 크리티컬 데이터의 경우 이는 나쁘지 않습니다.

"데이터웨어 하우스는 보안 측면에서 장점이 있으며 데이터 거버넌스를 제어하기위한 매우 쉬운 도구"라고 Angel은 말했습니다. "그래서 가장 중요한 정보는 미션 크리티컬 한웨어 하우스에 보관하고 싶지만 새로운 비즈니스 기회와 숨겨진 통찰력을 발견 할 때는 데이터 레이크를 활용하고 싶습니다."

데이터 레이크, 설명