집 사업 AI 데이터베이스 : 데이터의 의미와 비즈니스가 관심을 가져야하는 이유

AI 데이터베이스 : 데이터의 의미와 비즈니스가 관심을 가져야하는 이유

2024

차례:

AI 데이터베이스 란 무엇입니까?
AI 데이터베이스 작동 방식
과대 광고 또는 현실?

비디오: [ë¤ìë³´ë ë§¥ìë]ì¤í°ë¸ì¡ì¤ ì(å¼) íë¦¬ì íì´ì ìê³ëª (십월 2024)

데이터 및 비즈니스 인텔리전스 (BI)는 동일한 코인의 양면입니다. 스토리지, 처리 및 분석의 발전으로 대규모 데이터 세트를 다루고 통찰력을 얻기 위해 데이터베이스 전문가 나 데이터 과학자가 될 필요가없는 수준까지 데이터가 민주화되었습니다. 여전히 학습 곡선이 있지만 셀프 서비스 BI 및 데이터 시각화 도구는 비즈니스가 수집 가능한 모든 데이터를 실행 가능한 분석에 활용하는 방식을 재정의하고 있습니다. 그러나 BI 또는 데이터베이스 회사 호킹 고급 분석과 ML (훈련 기계 학습) 및 딥 러닝 모델을 위해 특수 제작 된 인공 지능 (AI) 데이터베이스에는 차이가 있습니다.

ML 알고리즘은 오늘날의 소프트웨어의 많은 부분에 포함되어 있습니다. 소비자 경험은 가상 어시스턴트를 통해 AI와 융합되고 비즈니스 소프트웨어에는 회사의 전체 고객 관계 관리 (CRM) 포트폴리오 아래에 지능형 계층 역할을하는 Salesforce Einstein과 같은 예가 있습니다. Google과 Microsoft를 포함한 기술 거대 기업은 연구뿐만 아니라 AI와 함께 기술이 처음부터 작동하는 방식을 다시 써서 지능형 미래를 더욱 발전시키고 있습니다.

훈련기 및 딥 러닝 모델의 문제점 중 하나는 이미지 분류 또는 자연어 처리 (NLP)와 같은 분야에서 복잡한 패턴 인식과 같이 신경망을 훈련시키는 데 필요한 데이터 양과 처리 능력입니다. 따라서 AI 데이터베이스는 비즈니스를위한 AI 학습 및 교육 프로세스를 최적화하는 방법으로 시장에 등장하기 시작했습니다. 우리는 자체 AI 데이터베이스를 구축 한 GPU 가속 관계형 데이터베이스 제공 업체 인 Kinetica와 PCMag의 상주 BI 및 데이터베이스 전문가 인 Pam Baker와 함께 AI 데이터베이스가 무엇인지, 기존 데이터베이스와 비교하여 작동하는 방식을 이해하지 못했습니다. 더 중요한 것은이 신흥 기술에 실제 비즈니스 가치가 있는지 여부를 판단하기 위해 과대 광고 및 마케팅 발언을 정렬하는 데 도움을 요청한 것입니다.

AI 데이터베이스 란 무엇입니까?

AI 공간의 급격한 변화로 인해 용어를 설정하기가 어려울 수 있습니다. 실제로 ML, 딥 러닝 및 AI와 같은 용어는 실제로 AI의 더 큰 우산 아래에서 여전히 기술을 개발할 때 상호 교환 가능하게 사용됩니다. 베이커는 AI 데이터베이스가 당신이 누구에게 말 하느냐에 따라 크게 다른 두 가지 정의가 있다고 말했다. 하나는 실용적이고 다른 하나는 하늘에있다.

"업계에는 AI 데이터베이스가 자연어 쿼리와는 완전히 무관 한 것이라는 합의가 있습니다. 사용자 인터페이스는 검색어와 주요 문구를 사용하여 검색 할 필요가 없습니다. "필요한 정보를 통해 사용자는 NLP로 데이터 세트를 소환 할 수 있습니다"라고 Baker는 말했습니다. "IBM Watson이 시스템에 자연어 쿼리를 제공 할 수 있다는 매우 제한적인 주장을 할 수 있지만, 이미 데이터에 연결하고 데이터를 직접 선택해야합니다. 따라서 지금은 그 정의가 확장되었습니다."

보다 실제적인 정의와이 설명 자의 주제는 본질적으로 ML 모델 교육의 속도를 높이기 위해 특수 제작 된 데이터베이스를 사용하는 것입니다. 많은 기술 회사가 공급 업체가 상당한 컴퓨팅 성능을 필요로하는 더 많은 AI 기반 기능을 출시함에 따라 새로운 하드웨어 제품의 처리 부하를 완화하기 위해 전용 AI 칩을 이미 개발하고 있습니다. 데이터 측면에서 AI 데이터베이스를 사용하면 학습 ML 및 딥 러닝 모델과 관련된 볼륨, 속도 및 복잡한 데이터 거버넌스 및 관리 문제를보다 효과적으로 해결하여 시간을 절약하고 리소스를 최적화 할 수 있습니다.

이미지 크레디트: Futurism.com의 Todd Jaquith. 전체 인포 그래픽을 확장하려면 클릭하십시오

베이커는“현재 여러 가지 전술을 통해 ML 훈련 속도를 높이기 위해 많은 노력을 기울이고있다. "자동화 기능이 인프라를 처리하고 ML 모델을 교육하기 위해 코딩을 수행하는 AI 연구원과 인프라를 분리하는 것이 3 개월 정도 소요되는 대신 30 일 또는 30 분이 소요될 수 있습니다."

Kinetica는이 아이디어를 ML 및 딥 러닝 모델링에 최적화 된 통합 데이터베이스 플랫폼으로 세분화합니다. AI 데이터베이스는 데이터웨어 하우징, 고급 분석 및 시각화를 인 메모리 데이터베이스에 결합합니다. Kinetica의 Advanced Technology Group의 부사장 겸 수석 소프트웨어 엔지니어 인 Mate Radalj는 AI 데이터베이스가 밀리 초 이내에 빠르게 움직이는 복잡한 데이터를 동시에 수집, 탐색, 분석 및 시각화 할 수 있어야한다고 설명했습니다. 목표는 비용을 절감하고 새로운 수익을 창출하며 ML 모델을 통합하여 비즈니스가보다 효율적인 데이터 중심 의사 결정을 내릴 수 있도록하는 것입니다.

Radalj는“AI 데이터베이스는 일반 데이터베이스의 하위 집합입니다. "현재 AI 데이터베이스는 매우 인기가 있습니다. 그러나 많은 솔루션이 분산 된 구성 요소를 사용합니다. Spark, MapReduce 및 HDFS는 항상 인 메모리가 아니라 앞뒤로 회전하고 있습니다. 데이터베이스와 같은 요소의 합류점은 없습니다. 단일 플랫폼에서 완전히 통합 된 CPU 및 GPU를 사용하여 처음부터 구축되었으며, 높은 수준의 이점은 동일한 플랫폼에 빠른 처리 및 분석 기능이 통합 된 모델 기반 교육의 프로비저닝 속도가 빠르고 하드웨어 공간이 적다는 것입니다."

AI 데이터베이스 작동 방식

실제로 AI 데이터베이스에는 여러 가지 예가 있습니다. Microsoft Batch AI는 Microsoft Azure GPU에서 실행되는 딥 러닝 및 ML 모델 교육을위한 클라우드 기반 인프라를 제공합니다. 이 회사에는 비즈니스 및 데이터 과학자가 분산 아키텍처에서 데이터를보다 쉽게 처리하고 분석 할 수 있도록 Azure Data Lake 제품이 있습니다.

또 다른 예는 Google의 AutoML 접근 방식으로 ML 모델의 훈련 방식을 근본적으로 다시 엔지니어링합니다. Google AutoML은 ML 모델 설계를 자동화하여 특정 데이터 세트를 기반으로 새로운 신경망 아키텍처를 생성 한 다음 수천 번 테스트하고 반복하여 더 나은 시스템을 코딩합니다. 실제로 Google의 AI는 이제 인간 연구원보다 더 나은 모델을 만들 수 있습니다.

베이커는“Google AutoML을 살펴보면 ML 코드를 작성하여 사용자가 필요하지 않은 ML 코드를 작성할 수있다. "이것은 공급 업체가 수행하는 작업에 어떤 큰 차이가 있는지에 대한 아이디어를 제공합니다. 일부는 고급 분석을 ML로 전달하려고하지만 그렇지 않은 경우도 있습니다. 다른 일부는 ML을 가장 크게 능가하는 수준에서 ML을 수행하고 있습니다. 비즈니스는 현재 이해할 수 있습니다."

키네 티카가 있습니다. 6, 600 만 달러의 벤처 캐피탈 (VC) 자금을 조달 한 샌프란시스코에 기반을 둔 스타트 업은 빠른 데이터 수집 및 분석에 최적화 된 고성능 SQL 데이터베이스를 제공합니다. Kinetica는 Radalj가 모든 노드가 함께 배치 된 인 메모리 데이터, CPU 및 GPU를 특징으로하는 MPP (대규모 병렬 처리) 분산 데이터베이스 및 컴퓨팅 플랫폼이라고 설명한 것입니다.

Radalj는 AI 데이터베이스를 기존 데이터베이스와 다른 점은 세 가지 핵심 요소로 설명합니다.

가속화 된 데이터 수집
인 메모리 데이터의 공동 지역성 (데이터베이스 노드에서 병렬 처리)
데이터 과학자, 소프트웨어 엔지니어 및 데이터베이스 관리자가 모델을 더 빠르게 반복 및 테스트하고 결과를 분석에 직접 적용 할 수있는 공통 플랫폼입니다.

Radalj는이 데이터를 읽고있는 모든 비 데이터베이스 및 AI 모델 교육 전문가에게이 세 가지 핵심 요소를 모두 분류하고 AI 데이터베이스가 유형의 비즈니스 가치와 어떻게 연결되어 있는지 설명했습니다. 그는 실시간 스트리밍 데이터를 처리 할 수있는 기능을 통해 기업이 AI 기반 통찰력에 대해 빠른 조치를 취할 수 있기 때문에 데이터 가용성과 데이터 수집이 중요하다고 그는 말했다.

Radalj는“소매 고객은 5 분마다 매장 별 판매율을 추적하고자했습니다. "지난 몇 시간 동안의 이력 데이터를 기반으로 AI를 사용하여 재고를 보충하고 해당 프로세스를 최적화해야하는지 여부를 예측하려고했지만, 기계 중심 재고 보충을 위해서는 초당 600-1200 개의 쿼리를 지원해야합니다. "SQL 데이터베이스 및 AI 데이터베이스이기 때문에이 속도로 데이터를 수집 할 수 있습니다. 비즈니스 미션을 충족 시키면 더 많은 ROI를 이끌어 낸 응용 프로그램이 만들어졌습니다."

베이커는 ML이 방대한 양의 데이터를 필요로하므로 AI 데이터를 수집하는 것이 매우 중요하다는 데 동의했습니다. 두 번째 요소 인 "메모리 내 데이터의 공동성"이라는 개념은 좀 더 설명이 필요합니다. 인 메모리 데이터베이스는 별도의 디스크 스토리지가 아닌 메인 메모리에 데이터를 저장합니다. 특히 분석 및 BI 데이터베이스에서 쿼리를 더 빠르게 처리합니다. Radalj는 공동 지역성으로 Kinetica는 CPU와 GPU 컴퓨팅 노드와 스토리지 노드를 분리하지 않는다고 설명했습니다.

결과적으로 AI 데이터베이스는 병렬 처리를 지원하여 인간의 두뇌가 여러 자극을 처리 할 수있는 능력을 모방하는 동시에 확장 가능한 데이터베이스 인프라에 분산 된 상태를 유지합니다. 이는 Radalj가 "데이터 전달"이라고 부르거나 다른 데이터베이스 구성 요소간에 데이터를주고받을 필요가 있기 때문에 더 큰 하드웨어 공간을 차지하지 않습니다.

Radalj는“일부 솔루션은 IBM Symphony와 같은 오케 스트레이터를 사용하여 다양한 구성 요소에 걸쳐 작업을 예약하는 반면 Kinetica는 위치가 지정된 리소스에 대한 기능 배송을 강조하고, 데이터 배송을 최소화하는 고급 최적화 기능을 제공합니다. "공동체는 특히 대규모 데이터 세트에 대한 높은 동시 쿼리에 대해 뛰어난 성능과 처리량을 제공합니다."

실제 데이터베이스 하드웨어와 관련하여 Kinetica는 AI GPU 라인업이 확장되고 Intel과의 기회를 모색하고있는 Nvidia와 파트너 관계를 맺고 있습니다. Radalj는 또한 구글의 TPU (Tensor Processing Units)와 같은 새로운 AI 하드웨어와 클라우드 기반 인프라에 주목하고 있다고 밝혔다.

마지막으로, 통합 모델 교육 프로세스에 대한 아이디어가 있습니다. AI 데이터베이스는보다 빠른 수집 및 처리의 이점이 회사의 ML 및 딥 러닝 노력에 더 큰 비즈니스 지향 목표를 제공하는 경우에만 효과적입니다. Radalj는 Kinetica의 AI 데이터베이스를 데이터 과학 기반 모델 호스팅을 수행하는 "모델 파이프 라인 플랫폼"이라고합니다.

이 모든 것이보다 정확한 ML 모델을 개발하기 위해 더 빠른 테스트 및 반복에 적합합니다. 이 시점에서 베이커는 통일 된 방식으로 협업하면 ML 또는 딥 러닝 모델을 훈련하는 모든 엔지니어와 연구원이 훈련 과정의 모든 단계를 지속적으로 재창조하는 것과 달리 작동하는 것을 결합하여 더 빠르게 반복하는 데 도움이 될 수 있다고 말했다. Radalj는 빠른 일괄 처리, 스트리밍 및 쿼리를 통해 BI에 즉시 적용 할 수있는 모델 결과를 생성하는 워크 플로를 만드는 것이 목표라고 말했습니다.

Radalj는“데이터 과학자, 소프트웨어 엔지니어 및 데이터베이스 관리자는 데이터 과학 자체, 소프트웨어 프로그램 작성 및 SQL 데이터 모델 및 쿼리에 대한 작업을 명확하게 설명 할 수있는 단일 플랫폼을 가지고 있습니다. "사람들은 공통 플랫폼 일 때 다양한 영역에서보다 깔끔하게 협력합니다. ML 및 딥 러닝을 실행하지 않는 것보다 목표는 분석 결과와 함께 계수와 변수의 결과를 사용하려는 것입니다. 점수를 매기거나 유용한 정보를 예측하는 데 출력을 사용합니다."

과대 광고 또는 현실?

최소한 Kinetica가 정의한 방식으로 AI 데이터베이스의 최종 가치는 컴퓨팅 및 데이터베이스 리소스를 최적화하는 것입니다. 이를 통해 더 나은 ML 및 딥 러닝 모델을 생성하고 더 빠르고 효율적으로 교육하며 AI가 비즈니스에 어떻게 적용되는지에 대한 통과 선을 유지할 수 있습니다.

Radalj는 차량 관리 또는 운송 회사의 예를 보여주었습니다. 이 경우 AI 데이터베이스는 많은 차량에서 대량의 실시간 정보 스트림을 처리 할 수 있습니다. 그런 다음 해당 지리 공간 데이터를 모델링하고이를 분석과 결합함으로써 데이터베이스는 트럭을 동적으로 재 라우팅하고 경로를 최적화 할 수 있습니다.

"빠른 프로비저닝, 프로토 타입 및 테스트가 더 쉬워졌습니다. '모델링'이라는 단어는 AI에서 발생하지만, 더 많은 데이터, 더 나은 방법, 반복되는 실행, 테스트, 비교 및 Radalj는 말했다. "전보다 많은 데이터가 존재하기 때문에 신경망에 생명이 부여되었습니다. 그리고이를 통해 계산할 수있는 방법을 배우고 있습니다."

궁극적으로 Kinetica의 공존 데이터베이스 및 모델 파이프 라인 플랫폼은 공간에 대한 접근 방식 중 하나 일뿐입니다. 이는 요청한 사람에 따라 다른 많은 것을 의미 할 수 있습니다. 베이커는 아직 진화하고 실험적인 시장에서 구매자가 직면 한 과제는 AI 데이터베이스 벤더가 정확히 무엇을 투구하고 있는지 파악하는 것이라고 말했다.

베이커는“비즈니스 개념, 딥 러닝, ML 및 그 모든 것이 확실한 개념입니다. 우리가 해결하고있는 것은 아직 해결되지 않았더라도 해결할 수있는 기술 문제입니다. "이것은 그것이 확실하지 않기 때문에 이것이 성숙한 공간이라고 말할 수는 없습니다. ML이있을 수도 있고 그렇지 않을 수도 있기 때문에 '구매자 조심'이라고 말하고 싶습니다. 단지 정원의 다양한 고급 분석 일 수 있습니다."

베이커는 AI 데이터베이스가 모두 과대 광고인지 또는 비즈니스가 진행되고 있는지에 대한 중요한 트렌드를 나타내는 지 여부에 대해 약간의 차이가 있다고 말했다. 그녀는 마케팅 용어로 빅 데이터가 현재 유리하지 않다고 말했다. 베이커는 이제 고급 데이터 중심 분석과 실제 ML 및 딥 러닝 알고리즘 사이에 시장 관계가 있다고 말했다. 그럼에도 불구하고 ML 모델링을위한 데이터베이스 또는 대중 문화에서 꿈꾸는 자각 형 인공 지능에 대해 이야기하든 모두 데이터로 시작하고 끝납니다.

베이커는“데이터는 시간이 끝날 때까지 비즈니스에서 사용될 것입니다. 비즈니스의 중심에 있습니다. "공상 과학의 관점에서 이야기 할 때, AI는 자기 실현 된 지능입니다. 그것은 여러분이 세상을 지배하는 특이점과 로봇에 대해 이야기하기 시작할 때입니다. 그런 일이 있든 없든 모르겠습니다. 나는 떠날 것입니다. 스티븐 호킹에게