집 사업 머신 러닝 성공을위한 7 가지 팁

머신 러닝 성공을위한 7 가지 팁

2024

차례:

1. 물류를 잊지 마세요
2. 데이터를 염두에 두십시오
3. 알고리즘은 마법의 총알이 아니다
4. 다양한 툴셋 사용
5. 하이브리드 학습 실험
6. 싼 것은 나쁜 것을 의미하지 않습니다
7. AI라고 부르지 마십시오

비디오: D'you know what i mean Liam Gallagher seoul live ë¦¬ì•”ê°¤ëŸ¬ê±° ë‚´í•œ ê³µì—° LIVE FOREVER LONG (십월 2024)

ML (Business Learning to Machine Learning)의 첫 번째 부분은 비즈니스 환경에서 ML의 우산 개념이 훨씬 더 미묘한 차이를 보여주었습니다. 가장 효과적인 전략은 ML 프로세스를 실질적인 의미로 살펴보고 복잡한 딥 러닝과 덜 집중적 인 "저렴한 학습"기술을 사용하여 엔터프라이즈 프로세스를 최적화하고 실질적인 비즈니스 인텔리전스 (BI) 통찰력을 얻습니다.

비즈니스 응용 프로그램 내에 ML을 배포하는 목표는 수익성을 향상 시키거나 회사의 경쟁력을 높이는 것입니다. 그러나 조직의 더 큰 체계에서는이 프로세스에 투자하는 시간과 리소스를 최대한 활용하는 것이 알고리즘을 훨씬 능가합니다. 비즈니스의 IT 의사 결정자들은 데이터 및 물류에서 사용자와의 관계에 이르기까지 ML 실행에 영향을 미치는 모든 요소가 효과적으로 결합하여 효과를 극대화해야합니다.

Ted Dunning 박사는 다양한 빅 데이터 배포 및 데이터 관리 도구를 제공하는 엔터프라이즈 소프트웨어 회사 인 MapR의 최고 애플리케이션 아키텍트입니다. 또한 Dunning은 자신이 "실용적인 머신 러닝"이라고하는 것에 대해 두 권의 책을 공동 저술했으며 ID Analytics 사기 탐지 시스템 (LifeLock에서 구입) 및 Musicmatch Jukebox 소프트웨어를 포함하여 여러 회사에서 ML 기술을 개발했습니다. 나중에 Yahoo Music이되었습니다. 또한 현재 Apache Software Foundation의 부사장으로 재직하고 있습니다.

Dunning은 ML 공간이 수십 년에 걸쳐 발전하는 것을 보았으며 실제 비즈니스 환경에서 작동하지 않는 것과 작동하지 않는 것에 대해 많은 것을 배웠습니다. 아래에 Dunning은 ML에 기반을 둔 비즈니스 솔루션을 개발할 때 따라야 할 7 가지 모범 사례를 제시합니다.

1. 물류를 잊지 마세요

성공적인 ML은 올바른 도구 또는 알고리즘을 선택하는 것이 아닙니다. Dunning은 또한 어떤 접근 방식이 적합한 지 파악하고 해결하려는 특정 상황에 맞게 설계해야한다고 말했습니다. 예를 들어 Dunning은 자율 주행 차를 안내하는 알고리즘과 같은 훨씬 복잡한 시나리오와 달리 온라인 마케팅 캠페인에서 ML에 대해 이야기했습니다. 점증적인 알고리즘 개선을 위해 리소스를 소비하는 것은 자동차의 어려움을 겪을 가치가 있지만 마케팅 시나리오에서는 주변의 모든 물류를 최적화하는 것보다 훨씬 더 나은 수익을 얻을 수 있습니다.

Dunning은 "종종 기업의 경우 학습이 아니라 물류이기 때문에 가치를 제공합니다. 이것이 시간과 자원을 소비하는 부분입니다."라고 Dunning은 말했습니다. "알고리즘을 조정하면 약간의 개선 효과를 얻을 수 있습니다. 그러나 데이터, GUI 및 사용자의 의견을 듣고 참여하는 방법을 쉽게 100 % 향상시킬 수 있습니다. 알고리즘을 조정하는 데 소요되는 시간은 다음과 같습니다. 사용자에게 귀 기울이고있는만큼 비즈니스에 큰 영향을 미칩니다."

이 점을 설명하기 위해 Dunning은 회사의 고객 데이터베이스에서 애플리케이션 사기 (도용 된 신원으로 가짜 계정 열기)를 식별하기위한 모델을 한 번 구축 한 방법을 설명했습니다. 그가 만든 모델은 훌륭한 결과를 얻었지만 Dunning은 지원자의 성별에 매우 큰 가중치를 부여했습니다.

물류가 꺼진 것으로 판명되었습니다. 신청 절차가 진행되는 방식에 따라 신청자는 이미 고객이 된 후 사기를 걸러 내기위한 여러 선별 단계를 통과 한 후에 만 성별을 채웠습니다. ML 모델은 젠더 필드를 사용하여 전체 사기 프로세스의 물류를 부정했습니다. 그것은 알고리즘과는 아무런 관련이 없으며, 회사가 처음에 데이터를 얻는 방법과 관련이 있습니다.

2. 데이터를 염두에 두십시오

독촉은 어리석은 지혜로 가득합니다. "학습이 아니라 물류"로 시작한 후 그는이 아이디어의 나머지 절반은 "알고리즘이 아니라 데이터"라고 말했다. ML 알고리즘이 귀중한 통찰력을 제공하도록 보장하는 것의 대부분은 올바른 데이터를 제공하는 것입니다. 더닝은보고있는 결과를 얻지 못하면 올바른 데이터를 사용하지 않기 때문에 그렇지 않은 경우가 더 많다고 말했다.

"사람들은 특정 알고리즘에 상처를 입히고 자아를 묶지 만, 현재는 도구 덕분에 모든 사람과 어머니가 모든 종류의 새로운 알고리즘을 만들 수 있고 있습니다."라고 Dunning은 말했습니다. "데이터가 훨씬 더 중요하며, 알고리즘을 끊임없이 수정하는 것보다 훨씬 더 많은 힘을 줄 것입니다. 음성 인식이나 컴퓨터 비전과 같은 어려운 문제를 해결하려는 경우 그 중 하나입니다. 그러나 이것은 데이터 중심의 분야입니다. 대부분의 시나리오에서는 어떤 데이터를 받고 질문을 변경하는 것이 훨씬 유리합니다."

이것이 Veoh Networks라는 회사에서 비디오 추천 엔진을 구축 할 때 2000 년대 중반 Dunning이 한 일입니다. 이 팀은 사람들이 예상보다 많이 클릭 한 사용자 제작 동영상 쌍을 식별하려고 노력했지만 알고리즘이 작동하지 않았습니다. 그들은 사용자가 좋아하는 아티스트와 노래를 이름으로 알고있는 음악에 대해 생각하고있었습니다. 그래서 그들은 알고리즘 자체를 건드리지 않고 사용자 인터페이스를 조정하여 질문을 변경했습니다.

Dunning은 "사용자가 제작 한 비디오에서 아티스트와 많은 비디오가 더 많은 뷰를 얻기 위해 실제로 스팸성 타이틀을 가지고 있다는 것을 아무도 모른다. 알고리즘 조정에 대한 사이클링은 우리에게 좋은 결과를주지 못했을 것"이라고 Dunning은 말했다. "우리가 한 것은 10 초마다 비콘 신호를 내도록 사용자 인터페이스를 변경 한 것입니다. 우리는 추천자의 원시 데이터에 대한 클릭 대신 비콘을 사용하면 놀라운 결과를 얻을 수 있다는 것을 발견했습니다. 알고리즘 변경없이 권장 사항으로 인해 참여도가 100 % 향상되었습니다."

3. 알고리즘은 마법의 총알이 아니다

ML 구현은 지속적인 시행 착오를 겪고 있습니다. 알고리즘이 아무리 우수하더라도 시스템이 인간과 상호 작용하는 경우 시간이 지남에 따라 조정해야합니다. Dunning은 비즈니스가 지속적으로 구현의 전체적인 효과를 측정하고, 이를 개선하고 악화시키는 변경 사항 및 변수를 식별해야한다고 강조했습니다. 이것은 소름 끼치는 소리처럼 들릴지 모르지만, Dunning은 그것이 명백한 소리에도 불구하고이 일을하거나 잘하는 사람은 거의 없다고 말했다.

Dunning은 "많은 사람들이 시스템을 구축하거나 조치를 취하고 알고리즘이 완벽하게 영원히 실행되기를 원합니다."라고 말했습니다. "알고리즘은 마법의 총알이 될 수 없습니다. 사용자 인터페이스 디자인은 영원히 고착 될 것입니다. 데이터 수집 방법을 대체 할 수는 없습니다.이 모든 것이 일어날 수 있고 일어날 것입니다. 그리고 비즈니스는주의 깊게 측정, 평가 및 재평가해야합니다. 시스템이 작동합니다."

4. 다양한 툴셋 사용

수십 가지 ML 도구가 있으며 그 중 많은 도구를 무료로 사용할 수 있습니다. Caffe, H20, Shogun, TensorFlow 및 Torch와 같은 인기있는 오픈 소스 프레임 워크 라이브러리와 Mahout, Singa 및 Spark를 비롯한 여러 ASF (Apache Software Foundation) 프로젝트에 ML 라이브러리가 있습니다. 그런 다음 Amazon Machine Learning, BigML 및 Microsoft Azure Machine Learning Studio를 포함한 구독 기반 옵션이 있습니다. Microsoft는 무료 Cognitive Toolkit도 제공합니다.

사용 가능한 수많은 리소스가 있습니다. Dunning은 수많은 비즈니스, 데이터 과학자 및 ML 실무자에게 이야기했으며 항상 사용하는 프레임 워크와 도구의 수를 묻습니다. Dunning은 평균적으로 최소 5-7 개의 도구를 사용하고 있으며 그보다 훨씬 더 많은 도구를 사용한다고 응답했습니다.

Dunning은 "하나의 툴에 붙일 수는 없습니다. 여러 툴을 사용해야하므로 시스템을 불가지론적인 방식으로 구축하는 것이 좋습니다."라고 말했습니다. "이 도구가 귀하에게 필요한 유일한 도구임을 확신 시키려고하는 사람은 귀하에게 제품을 판매하는 것입니다.

"다음주에 애플 카트를 화나게하는 무언가가 일어날 수 있고, 우리가보고있는 혁신 속도에서 적어도 5 년에서 10 년 동안 계속 될 것"이라고 Dunning은 계속했다. "기존 이미지 분류기를 다시 사용하여 카탈로그의 그림을 분석 할 수있는 저렴한 학습 예를 살펴보십시오. 컴퓨터 비전에 대한 심도있는 학습입니다. 그러나 도구를 모두 패키지화 한 도구가 있습니다. 서로 다른 툴 사이의 측정, 평가 및 진동을 위해서는 인프라가이를 환영해야합니다."

5. 하이브리드 학습 실험

더닝은 또한 저렴한 딥 러닝을 하이브리드로 결합 할 수 있다고 말했다. 예를 들어, 기존 컴퓨터 비전 모델을 가져 와서 결정을 내리는 최상위 몇 계층을 재구성하는 경우 완전히 새로운 사용 사례를 위해 기존 프레임 워크를 공동 선택할 수 있습니다. 더닝은 참가자들이 그렇게 한 카 글레 경쟁을 지적했다. 그들은 컴퓨터가 고양이와 개를 구별 할 수 있도록 데이터 세트를 가져와 새로운 알고리즘을 작성했습니다.

"고양이와 개를 구별하는 것은 ML 알고리즘에있어 매우 미묘한 것입니다. 논리에 대해 생각해보십시오. 고양이는 귀가 뾰족하지만 독일 셰퍼드도 마찬가지입니다. 개는 달마시안 등을 제외하고 반점이 없습니다. 인식하기 매우 어려울 수 있습니다. 그 자체로”라고 독촉했다. "99 %의 정확도로이 작업을 수행 한 시스템을 개발 한 사람은 처음에 온 사람에게 더 깊은 인상을 받았습니다. 처음부터 구축하는 대신 다른 작업에서 기존의 이미지 인식 프로그램을 가져갔습니다. 그는 몇 가지 예를 들었고 곧 개와 고양이를 구별하는 데 98 %의 정확도를 보였습니다. 전체 과정에서이 사람은 3 시간이 걸렸습니다."

6. 싼 것은 나쁜 것을 의미하지 않습니다

명백한 내포에도 불구하고 Dunning은 값싼 학습이 나쁜 학습을 의미하지는 않는다고 말했다. ML 구현에 소요되는 시간은 비즈니스 가치와 직접적인 관련이 없습니다. 더 중요한 품질은 공정이 반복 가능하고 신뢰할 수 있도록하는 것입니다. 비즈니스가 과도한 양의 자원을 투자하지 않고이를 달성 할 수 있다면 더 좋습니다.

"저렴한 것은 나쁜 의미가 아닙니다. 그것이 효과가 있다면 효과가 있습니다. 싸고 효과가 있다면 웅장합니다.하지만 그 가치를 정의하려는 노력은 가치를 정의하지 않습니다.". "가치를 정의하는 것은 비즈니스를 개선하는 방법입니다. 수익을 향상 시키거나 비용을 줄이거 나 경쟁 상황을 개선하는 경우 노력이 아니라 효과입니다."

7. AI라고 부르지 마십시오

Dunning은 이러한 기술에 대해 이야기 할 때 ML, 컴퓨터 비전 또는 딥 러닝이라는 정확한 용어를 사용해야한다고 강조했습니다. 이 모든 것이 "인공 지능"이라는 포괄적 인 용어에 속하는 경향이 있지만, Dunning에게 AI의 정의는 단순히 "아직 작동하지 않는 것"입니다.

"내가 AI에 대해 들어 본 최고의 정의는 그것이 우리가 아직 설명 할 수없는 것들이라는 것이다. 우리가 아직 이해하지 못한 것들"이라고 Dunning은 말했다. "우리가 일할 무언가를 얻을 때마다 사람들은 '아, AI가 아니라 소프트웨어 일 뿐이다. 규칙 엔진 일 뿐이다. 단지 물류 회귀 일 뿐이다." 우리는 무언가를 알아 내기 전에 그것을 AI라고 부릅니다. 그 후에는 항상 다른 것을 부르고 여러면에서 AI는 다음 경계의 단어로 더 잘 사용되며 AI에는 항상 다음 경계가있을 것입니다. 이미 도달 한 곳이 아니라 가고있는 곳입니다."