사업 빅 데이터 기본 사항 : 데이터 거버넌스 계획을 구축하는 방법

빅 데이터 기본 사항 : 데이터 거버넌스 계획을 구축하는 방법

비디오: [델 스토리지-①]SMB용에 필수 3대 요소 갖춘 'MD3000i, AX4-5' (십월 2024)

비디오: [델 스토리지-①]SMB용에 필수 3대 요소 갖춘 'MD3000i, AX4-5' (십월 2024)
Anonim

우리는 현대 비즈니스에서 데이터의 역할에 대해 많은 글을 썼습니다. 신생 기업 및 중소 기업 (SMB)에서 대기업에 이르기까지 데이터 통찰력과 분석은 그 어느 때보 다 모든 규모의 비즈니스에보다 쉽게 ​​접근 할 수 있습니다. 이는 부분적으로 셀프 서비스 비즈니스 인텔리전스 (BI) 및 데이터 시각화 도구의 부상으로 인한 것입니다.

그러나 BI 도구를 사용하거나 데이터 집합에 대해 예측 분석을 실행하기 전에 제곱 할 여러 가지 요소가 있습니다. 빅 데이터가 무엇인지, 그렇지 않은 것이 무엇인지 (힌트가 아님), 엔터프라이즈 데이터 아키텍처 내에서 데이터 스토리지, 조직, 권한 및 보안을 관리하는 방법을 이해하는 것부터 시작합니다. 여기에서 데이터 거버넌스가 시작됩니다. 기업 내 거버넌스를 보장하는 프로세스는 대화하는 사람에 따라 다릅니다. 그러나 기본적으로 데이터 거버넌스는 포괄적 인 데이터 보안 모범 사례와 결합 된 데이터 신뢰 및 책임에 관한 것입니다.

나는 시장에서 가장 큰 엔터프라이즈 하둡 벤더 중 하나 인 Hortonworks와 MapR과 이야기를 나 talk습니다. Hortonworks의 최고 기술 책임자 인 Scott Gnau와 MapR의 데이터 및 애플리케이션 부사장 인 Jack Norris는 각각 데이터 거버넌스가 조직에 어떤 의미가 있는지 설명했습니다. 이들은 대기업의 복잡한 데이터 아키텍처 및 조직 계층 내에서 데이터 거버넌스를 보장해야하는 복잡한 문제를 해결하는 방법에 대해 논의했습니다.

정확히 무엇인가 데이터 거버넌스와 왜 필요한가?

거버넌스는 개인 정보 및 보안을 유지하면서 가능한 한 적은 오류로 데이터베이스에서 엔터프라이즈 데이터를 인증, 구성 및 권한을 부여 함을 의미합니다. 특히 데이터가 저장되고 처리되는 위치와 방법에 대한 흐름이 끊임없이 변화하는 경우 파업이 쉽지 않습니다. MapR의 Norris는 왜 기업이 데이터 거버넌스를 더 높은 수준에서보고 더 큰 데이터 파이프 라인에 집중해야하는지 설명했습니다.

"우리가 다루고있는 빅 데이터의 다양성과 속도를 확장하기 시작하면 데이터 거버넌스를 가져야하지만이 광범위한 맥락에서 볼 수 있습니다. 데이터는 누구이며 누가 액세스 할 수 있으며 어떻게 액세스합니까? 시간이 지남에 따라 해당 데이터의 연계를 관리하고 있습니까? " 노리스가 말했다. "데이터 거버넌스 관점에서, 스냅 샷 가능한 시스템 내에 존재하는 여러 단계의 데이터를 가질 수 있으므로 파이프 라인의 어느 시점에서나 리턴 할 수 있습니다. 감사를 위해 데이터 플랫폼에 액세스 및 액세스 제어를 구축하는 것입니다. 재무 데이터 세트를보고있는 비즈니스 관리자이든 원시 업스트림 데이터를 다루는 데이터 과학자이든 상관없이 데이터 검색 및 분석이 투명해야합니다."

출처: Rimes. 전체 이미지를 보려면 이미지를 클릭하십시오.

Hortonworks의 Gnau도 비슷한 점을 입력했습니다. 데이터웨어 하우스 또는 데이터 레이크 아키텍처를 다룰 때 데이터 거버넌스는 반대 세력의 균형을 유지하는 것입니다. 혁신을 주도하고 통찰력을 도출하고 세분화 된 권한 및 개인 정보 보호를 통해 데이터를 엔드 투 엔드로 동시에 보호하는 완벽한 데이터 액세스에 관한 것입니다.

Gnau는 "데이터 공간에서 기존 거버넌스의 오래된 세계를 비교하고 대조하십시오. 조금 쉬웠습니다."라고 말했습니다. "데이터는 직무 역할이나 응용 프로그램에 의해 잘 정의되어있었습니다. 새로운 세계에서는 데이터 과학자가 가능한 한 많은 데이터에 액세스 할 수 있고 행복한 매체를 찾는 것이 가장 중요합니다.

Gnau는 "거버넌스 접근 방식에있어 완전히 새로운 패러다임을 주도하고있다"고 덧붙였다. "이 새로운 세상에서 저는 함께 다루어야 할 거버넌스 및 보안 주제를 고려합니다. 많은 회사들이 데이터 과학자들이 새로운 유스 케이스를 찾는 동시에 효과적으로 활용하기 위해이를 극복하기 위해 여전히 노력하고 있습니다. "보안, 개인 정보 보호, 거버넌스 처리 방법 이해 – 최종 관점과 회사 평판 관점에서 중요한 모든 것"

엔터프라이즈 데이터 거버넌스 계획은 어떻게 모든 반대 세력을 포괄하고 만족시켜야합니까? 한 번에 한 단계 씩 각 요구 사항을 체계적으로 처리합니다.

데이터 거버넌스 계획을 구축하는 방법

Hortonworks, MapR 및 Cloudera는 하둡 공간에서 가장 큰 독립 플레이어입니다. 회사는 데이터 거버넌스와 관련하여 자체적 인 영향을 미칩니다. MapR은이 주제에 대한 여러 백서를 발표하고 Converged Data Platform 전체에 데이터 거버넌스를 구축했으며 Hortonworks는 자체 데이터 보안 및 거버넌스 솔루션을 보유하고 2015 년 DGI (Data Governance Initiative)를 공동 설립했습니다. 하둡을위한 개방형 데이터 거버넌스 프레임 워크를 제공하는 -source Apache Atlas 프로젝트.

그러나 각 공급 업체가 포괄적 인 데이터 거버넌스 및 보안 전략을 만드는 방법에 관해서는 Gnau와 Norris가 비슷한 방식으로 이야기했습니다. 다음은 데이터 거버넌스 계획을 수립 할 때 Hortonworks와 MapR이 비즈니스가 염두에 두는 권장 단계입니다.

큰 것: 세분화 된 데이터 액세스 및 권한

두 회사 모두 세분화 된 제어 없이는 효과적인 데이터 거버넌스를 가질 수 없다는 데 동의합니다. MapR은 주로 ACE (Access Control Expressions)를 통해이를 수행합니다. Norris가 설명했듯이 ACE는 그룹화 및 부울 논리를 사용하여 역할 기반 권한 및 가시성 설정으로 유연한 데이터 액세스 및 권한 부여를 제어합니다.

그는 그것을 가트너 모델처럼 생각한다고 말했다. 하단의 Y 축에는 엄격한 거버넌스와 낮은 민첩성이 있으며 상단의 X 축에는 높은 민첩성과 거버넌스가 낮습니다.

Norris는 "낮은 수준에서는 민감한 데이터를 난독 처리하여 보호합니다. 맨 위에는 데이터 과학자와 BI 분석가를위한 기밀 계약이 있습니다."라고 말했습니다. "우리는 마스킹 기능과 다양한 뷰를 사용하여 가능한 한 맨 아래에 원시 데이터를 잠그고 관리자가 더 넓은 가시성을 제공 할 때까지 점차 더 많은 액세스 권한을 제공합니다. 그러나 어떻게 제공합니까? 올바른 사람들에게 접근 할 수 있습니까?

Norris는 "오늘날 액세스 제어 목록을 보면 '엔지니어링의 모든 사람이 액세스 할 수 있습니다'라고 말합니다."라고 덧붙였습니다. "하지만 IT 내 프로젝트의 일부 감독이 액세스 권한을 갖거나 사람을 제외한 모든 사람이 액세스하도록하려면 특수 그룹을 작성해야합니다. 액세스를 보는 것은 너무 복잡하고 복잡한 방법입니다."

Norris에 따르면 다양한 레벨과 그룹에 대한 액세스 권한을 부여하는 곳입니다. "ACE는 파일, 테이블, 스트림 등을 통해 데이터에 액세스 할 수있는 다양한 방법과 ACE를 결합하고 별도의 데이터 사본없이 뷰를 구현했습니다. 따라서 동일한 원시 데이터 및 뷰에 대한 뷰를 제공합니다. 다른 수준의 액세스 권한을 가질 수 있습니다. 이는보다 직접적인 통합 보안을 제공합니다."

Hortonworks는 유사한 방식으로 세분화 된 액세스를 처리합니다. Gnau는 거버넌스와 Apache Ranger를 위해 Apache Atlas를 통합함으로써 단일 창을 통해 엔터프라이즈 수준에서 인증을 처리한다고 말했다. 그는 핵심은 태그 기반 정책을 사용하여 데이터베이스 및 특정 메타 데이터 태그에 대한 액세스 권한을 상황에 따라 부여 할 수있는 능력이라고 말했다.

Gnau는 "누군가가 데이터베이스에 있으면 관련 액세스 권한이 있어야하는 데이터를 통해 데이터를 안내하는 것"이라고 말했다. "객체 수준, 세분화 및 그 사이의 모든 단계에서 Ranger의 보안 정책이이를 처리 할 수 ​​있습니다. 이러한 보안을 거버넌스에 연결하는 것은 상황이 정말 흥미로워지는 곳입니다.

"대규모 조직에서 확장하려면 이러한 역할을 거버넌스 및 메타 데이터 태그와 통합해야합니다."라고 Gnau는 덧붙였습니다. "싱가포르에서 로그인하는 경우 현지 개인 정보 보호법 또는 회사 전략에 따라 다른 규칙이있을 수 있습니다. 회사가 전체적인 하향식 관점에서 이러한 규칙을 정의, 설정 및 이해하면 다음을 기반으로 액세스를 분리 할 수 ​​있습니다 "핵심 플랫폼 내부의 모든 것을 실행하는 동안 특정 규칙 세트."

출처: IBM Big Data & Analytics Hub. 전체 이미지를 보려면 이미지를 클릭하십시오.

2. 경계 보안, 데이터 보호 및 통합 인증

엔드 포인트 보안 없이는 거버넌스가 발생하지 않습니다. Gnau는 기존 인증 시스템 및 표준과 통합되는 데이터를 중심으로 적절한 경계 및 방화벽을 구축하는 것이 중요하다고 말했습니다. Norris는 인증과 관련하여 기업이 검증 된 시스템과 동기화하는 것이 중요하다는 데 동의했습니다.

Norris는 "인증 과정에서 LDAP, Active Directory 및 타사 디렉토리 서비스와 통합하는 방법에 관한 것"이라고 말했다. "Kerberos 사용자 이름과 암호도 지원합니다. 중요한 것은 완전히 별도의 인프라를 만드는 것이 아니라 기존 구조와 통합하고 Kerberos와 같은 시스템을 활용하는 방법입니다."

3. 데이터 암호화 및 토큰 화

경계를 보호하고 부여하는 모든 세분화 된 데이터 액세스를 인증 한 후 다음 단계: 데이터 파이프 라인을 통해 파일과 개인 식별 정보 (PII)를 암호화하고 토큰 화해야합니다. Gnau는 Hortonworks가 PII 데이터를 보호하는 방법에 대해 논의했습니다.

Gnau는“경계를 넘어서 시스템에 액세스 할 수있게되면 PII 데이터를 보호 할 수있는 것이 매우 중요합니다. "데이터에 액세스 한 사람에 관계없이 해당 PII 데이터를 노출시키지 않고 필요한 분석을 실행할 수 있도록 해당 데이터를 암호화하고 토큰 화해야합니다."

MapR의 Norris는 이동 중 및 유휴 상태 모두에서 암호화 된 데이터에 안전하게 액세스하는 방법에 대해 백업 및 재해 복구 (DR)와 같은 사용 사례를 명심하는 것이 중요하다고 설명했습니다. 그는 논리 볼륨이라고하는 MapR의 개념에 대해 설명했습니다.이 볼륨은 관리 정책을 점점 증가하는 파일 및 디렉토리 클러스터에 적용 할 수 있습니다.

Norris는“최저 수준에서 MapR은 DR을위한 WAN 복제와 디렉토리 또는 볼륨에 따라 서로 다른 주파수로 설정 될 수있는 모든 데이터에 대한 시간 일관성있는 스냅 샷을 설계했습니다. "데이터 거버넌스보다 더 광범위합니다. 디렉토리가있는 실제 클러스터를 가질 수 있으며 논리 볼륨 개념은 데이터 보호 및 빈도를 제어하면서 사물을 그룹화하는 매우 흥미로운 관리 단위입니다. IT 관리자 데이터의 또 다른 화살표입니다. 거버넌스 떨림."

4. 지속적인 감사 및 분석

광범위한 거버넌스 그림을 보면 Hortonworks와 MapR은이 전략이 감사 없이는 효과가 없다고 말했다. 프로세스의 모든 단계에 대한 그 수준의 호환성과 책임 성은 단순히 정책과 액세스 제어를 설정하고 최선을 다하는 것과 반대로 IT가 실제로 데이터를 "관리"할 수있게합니다. 또한 데이터를 관리하고 분석하는 데 사용하는 데이터와 기술이 매일 바뀌는 환경에서 기업이 전략을 최신 상태로 유지할 수있는 방법이기도합니다.

"현대 거버넌스 전략의 마지막 부분은 로깅 및 추적입니다."라고 Gnau는 말했습니다. "우리는 빅 데이터 및 IoT의 초기 단계에 있으며, 전략의 업데이트가 필요함에 따라 데이터의 패턴을 액세스 및 인식하여 패턴을 인식하는 것이 중요합니다."

Norris는 감사 및 분석은 JSON (JavaScript Object Notation) 파일을 추적하는 것만 큼 간단 할 수 있다고 말했다. 모든 데이터 조각을 추적하고 분석 할 가치가있는 것은 아니지만, 비즈니스 변화에 대한 통찰력 또는 위기가 발생하여 감사 추적을 실행해야 할 때까지 비즈니스는 어느 것을 알지 못합니다.

Norris는“모든 JSON 로그 파일은 분석을 위해 열리고 Apache Drill은 스키마를 사용하여 JSON 파일을 쿼리하므로 메타 데이터 분석을 설정하는 수동 IT 단계가 아닙니다. "모든 데이터 액세스 이벤트와 모든 관리 작업을 포함 시키면 광범위한 분석이 가능합니다."

5. 통합 데이터 아키텍처

궁극적으로 엔터프라이즈 데이터 거버넌스 전략을 감독하는 기술 책임자 또는 IT 관리자는 세분화 된 액세스, 인증, 보안, 암호화 및 감사의 세부 사항을 고려해야합니다. 그러나 기술 담당자 나 IT 관리자는 여기서 멈추지 않아야합니다. 오히려 그 사람은 이러한 각 구성 요소가 더 큰 데이터 아키텍처에 어떻게 공급되는지 고려해야합니다. 또한 데이터 수집 및 스토리지에서 BI, 분석 및 타사 서비스에 이르기까지 인프라 스트럭처의 확장 성 및 보안이 어떻게 필요한지 고려해야합니다. Gnau는 데이터 거버넌스는 기술 자체와 마찬가지로 전략과 실행을 재고하는 것에 관한 것이라고 말했다.

Gnau는 "단일 유리창이나 보안 규칙 모음을 넘어서고있다"고 말했다. "이것은 이러한 역할을 생성하는 단일 아키텍처이며 전체 플랫폼과 여기에 포함 된 모든 도구에서 동기화됩니다. 안전하게 관리되는 인프라의 아름다움은 새로운 방법이 만들어지는 민첩성입니다. 각 플랫폼 수준 또는 심지어 하이브리드 클라우드 환경의 경우 규칙 구현 방식을 이해하는 단일 참조 지점이 있습니다. 모든 데이터는이 보안 및 거버넌스 계층을 통과합니다."

빅 데이터 기본 사항 : 데이터 거버넌스 계획을 구축하는 방법