사업 SQL로 머신 러닝을 단순화하는 Google

SQL로 머신 러닝을 단순화하는 Google

차례:

비디오: [델 스토리지-①]SMB용에 필수 3대 요소 갖춘 'MD3000i, AX4-5' (십월 2024)

비디오: [델 스토리지-①]SMB용에 필수 3대 요소 갖춘 'MD3000i, AX4-5' (십월 2024)
Anonim

Google은 이제 페타 바이트 (PB) 규모의 클라우드 데이터베이스 제품인 Google BigQuery에 머신 러닝 (ML) 기능을 추가했습니다. 이제 BigQuery ML이라는 새로운 버전을 통해 간단한 SQL (Structured Query Language) 문을 사용하여 예측 분석을위한 ML 모델을 빌드 및 배포 할 수 있습니다.

Google을 사용하는 데이터 과학자에게는 좋은 소식이 아닙니다. 또한 클라우드를 통해 이러한 수준의 정교함을 제공 할 수있는 소규모 공급 업체 목록에 하나의 효과적인 경쟁자를 추가하기 때문에 데이터 분석 기능 향상에 관심이있는 비즈니스 운영자에게도 좋습니다. 가장 잘 알려진 다른 두 가지 이름은 Amazon Relational Database Service와 Microsoft Azure SQL이며 최근 클라우드 데이터베이스 서비스 라운드 업에서 더 많이 찾을 수 있습니다.

모든 데이터 제품 공급 업체와 구매자의 한계는 항상 기술 격차였습니다. ML 및 예측 분석에 관심이있는 사람들에게는 특히 그렇습니다. 이러한 분야에는 종종 새로운 기술과 쿼리 언어에 대한 지식이 필요하기 때문입니다.

구글 클라우드의 제품 관리 책임자 인 수 디르 하스 베 (Sudhir Hasbe)는“데이터 과학자 한 명당 수백 명의 분석가가 데이터를 다루고 있으며 대부분 SQL을 사용하고있다. 데이터 분석가의 힘이 너무 적고 지나치게 많은 데이터 과학자에 의해 발생 된 병목 현상에서 벗어나야한다면 뭔가를 제공해야했습니다.

이 딜레마에 대한 Google의 답변은 결코 놀라운 일이 아닙니다. ML은 인기가 높고 모든 종류의 제품에 등장하지만 여전히 데이터 과학자 영역입니다. 많은 공급 업체가 기술을 단순화하는 데 앞장 섰지 만 추악한 사실은 기술을 많이 단순화 할 수 있으며 여전히 99 % 이상의 인구가 사용하기가 어렵다는 것입니다. 그러나 ML이 더 많은 일을 할 수 있고 슈퍼 똑똑한 인간 그룹보다 더 빨리 할 수 ​​있기 때문에이를 사용할 수 있어야합니다.

Google은 Google BigQuery에 ML을 심어 데이터에 더 가깝게 배치합니다. 데이터 분석이 소스에서 수행 될 수 있기 때문에이 애플리케이션은 기존 ML 모델보다 ML 기능이 더 빠릅니다. 현재 베타 버전의 BigQuery ML을 사용하면 분석가 (및 데이터 과학자)가 판매 예측 및 고객 세그먼트 생성과 같은 예측 분석을 실행하여 저장된 데이터 위에 바로 분석 할 수 있습니다. 이것만으로도 훌륭한 업그레이드입니다.

그러나 Google은 데이터 분석가가 간단한 SQL 문을 사용하여 ML 모델을 구축 및 배포 할 수있는 기능을 추가하여 그 이상을 추구했습니다. 현재 가장 널리 사용되는 두 가지 모델이므로 예측 분석을위한 선형 회귀 및 로지스틱 회귀 모델이 옵션으로 제공됩니다.

다음은 데이터 분석가가이 기능을 사용하는 방법을 보여주기 위해 Google이 제공 한 그림입니다.

Hasbe에 따르면 구글은 시간이 지남에 따라 더 많은 ML 옵션을이 기능에 추가 할 계획이다. "가장 유용한 모델을 먼저 제공하기 위해 어떤 모델을 추가하고 싶은지 고객들로부터 들어야한다"고 그는 말했다.

추가 Google BigQuery 업그레이드

ML 이후 실질적인 업그레이드 목록은 클러스터링 기능, BigQuery GIS (BigQuery Geographic Information Systems), 새로운 Google 스프레드 시트 데이터 커넥터 및 새로운 Google 스프레드 시트 데이터 커넥터입니다.

클러스터링 은 베타 버전으로, 유사한 클러스터 키가있는 행을 묶는 데이터 최적화 이동에서 클러스터 된 테이블을 생성 할 수 있습니다. 이렇게하면 성능이 향상되고 Google BigQuery가 전체 테이블이나 파티션이 아닌 스캔 된 데이터에 대해서만 사용자에게 요금을 청구 할 수 있으므로 비용이 줄어 듭니다.

BigQuery GIS 는 현재 알파 상태이며 지리 공간 데이터 분석에 사용됩니다. Google Cloud 팀은 BigQuery GIS를 구축하기 위해 Google 어스 엔진과 파트너십을 맺었지만 자신의 지형 데이터를 테이블로 가져와야합니다. 커넥 티드 카 시스템, 사물 인터넷 (IoT), 제조, 소매, 스마트 도시 및 텔레매틱스를 포함한 여러 산업 분야에서는 문제가되지 않습니다. 물론 환경 보호청 (EPA)과 지리 공간 정보 청 (National Geospatial-Intelligence Agency)에서 미국 해양 대기 청 (NOAA) 및 모든 군사 지부에 이르는 정부 기관은 말할 것도 없습니다.

BigQuery GIS는 현재 Google 어스 엔진 및 Google지도와 같은 다양한 제품을 통해 10 억 명 이상의 사용자가있는 S2 라이브러리를 사용합니다. 더 많은 지리 공간 데이터가 필요한 경우, 연방 정부는 GeoPlatform에서 엄청난 양의 데이터를 공유합니다.

새로운 Google 스프레드 시트 데이터 커넥터 는 일상적으로 사용하기에 실용적이기 때문에 많은 데이터 분석가를 기쁘게 할 것입니다. Google 스프레드 시트 (스프레드 시트 프로그램)에서 Google BigQuery에 액세스하고 공동 작업, 데이터 시각화 및 자연어 쿼리 도구 인 Explore와 같은 Google 스프레드 시트 도구를 사용할 수 있습니다.

Google BigQuery에는 베타 버전의 새로운 UI (사용자 인터페이스)도 있습니다. 가장 흥미로운 요소 중 하나는 Google Data Studio에서 지원하는 원 클릭 시각화 기능입니다. 이미 말했듯이, 이미 우아한 서비스를위한 업그레이드가 훌륭합니다. 이러한 업그레이드는 버그가 해결되고 제품이 각각의 알파 및 베타 상태를 넘어 서면 PCMag의 DBaaS (Data-as-a-Service) 솔루션 검토의 다음 라운드에서 테스트됩니다.

PCMag EIC Dan Costa는 데이터의 미래에 대해 논의합니다.
SQL로 머신 러닝을 단순화하는 Google