Google DeepMind가 어린아이처럼 학습하는 방법: DeepMind는 비디오를 사용하여 세상에 대해 스스로 학습합니다.

Google DeepMind의 최신 프로젝트는 AI가 세상에서 일어나는 일을 이해하도록 가르치는 것입니다. 이를 위해 자신이 살고 있는 세상을 이해하는 데 도움이 되는 방대한 비디오 파일 카탈로그로 전환했습니다.

지금까지 DeepMind의 AI 프로젝트는 AI가 가상 환경을 작성하고, 해석하고, 이미지를 분류하고, 이동의 어려움을 파악하는 방법을 이해하면서 내부를 살펴보았습니다. 그러나 이번에 DeepMind 팀은 AI에게 외부를 보고 현재 자신이 속해 있는 현실 세계에서 무슨 일이 일어나고 있는지 이해하도록 가르쳤습니다.

이 프로젝트를 통해 AI는 작은 비디오 스니펫을 보고 다양한 시각적 및 오디오 개념을 인식하도록 스스로 학습할 수 있습니다. 지금까지 잔디를 깎거나 누군가를 간질이는 것이 무엇을 의미하는지 이해했지만, 훈련의 어느 시점에서도 보고 듣는 것을 설명하는 단어를 배운 적이 없습니다. 이러한 행동을 스스로 이해하고 있습니다.

DeepMind가 AI에게 Symbol-Concept Association Network를 통해 주변 환경을 해석하도록 가르친 것처럼 이 딥마인드 프로젝트 비슷한 길을 걷고 있다. 레이블을 사용하여 AI가 보고 있는 각 개체가 무엇인지 가르치는 대신 이 DeepMind 프로젝트는 이미지와 소리를 보고 들을 수 있는 것과 일치시켜 인식하는 법을 배우기 때문입니다.

이 학습 방법은 인간이 주변 세계를 이해하기 위해 생각하고 배우는 방식과 거의 똑같습니다.

알고리즘은 두 개의 별도 신경망으로 시작되었습니다. 하나는 이미지 인식을 처리하고 다른 하나는 오디오를 처리했습니다. 이미지 네트워크에는 비디오의 스틸 이미지가 표시되었으며 오디오는 이미지 네트워크가 표시된 비디오의 동일한 지점에서 1초 클립을 처리했습니다. AI는 400,000개의 비디오에서 가져온 6천만 개의 스틸 비디오 및 오디오 쌍으로 훈련되었습니다.

그런 다음 세 번째 네트워크는 이 이미지를 오디오 클립과 비교하여 어떤 소리가 어떤 비디오 스틸에 해당하는지 알아냈습니다. 이를 통해 개념에 대한 특정 레이블을 지정하지 않고도 군중, 탭댄스 및 흐르는 물을 포함한 오디오 및 시각적 개념을 인식하는 방법을 배웠습니다. 이는 그러한 행동을 설명하는 단어를 갑자기 알게 되었다는 의미가 아니라, 예를 들어 누군가가 박수를 치는 새로운 사진을 보여주면 박수 클립이 그것.

이러한 종류의 비지도 자가 학습은 AI가 현실 세계에서 작동할 수 있는 도구를 제공하여 보고 듣는 것을 통해 주변에서 일어나는 일에 대해 학습합니다. 그 생각이 일부 사람들을 걱정하게 할 수도 있지만 지금은 모든 것이 진행되고 있다는 사실을 알고 안심할 수 있습니다. DeepMind HQ의 on은 인터넷에서 멀리 떨어져 있으며 실제로 현실 세계와 상호 작용합니다.

그러나 그것은 하나의 방법일 뿐이다. 로봇은 일어나서 우리 모두를 노예로 만드는 법을 배울 수 있습니다.

구글 딥마인드가 이미 AI에게 가르친 것

Google DeepMind는 주변 환경을 어린아이처럼 해석합니다.

DeepMind가 문제를 해결하고 복잡한 상황을 처리하는 방법을 가속화하기 위해 Google은 인간의 마음에서 영감을 얻었습니다. 인간의 두뇌처럼 개념적 도구를 사용하여 문제를 해결하도록 DeepMind를 교육함으로써 DeepMind는 다양한 문제를 쉽게 해결하는 방법을 배울 수 있습니다.

Google의 DeepMind 팀은 이를 다음과 같이 요약합니다. 예 많은 수를 셀 수 있도록 점토, 갈대, 나무로 주판을 만드는 것과 같이 문제를 해결하는 도구를 만들기 위해 원자재로 물체를 만드는 방법에 대해 설명합니다. 그러나 인공 지능은 그렇게 생각하지 않습니다.

AI는 지식을 유지하지만 전통적으로 친숙한 개념을 완전히 새롭고 다른 것으로 결합하는 정신적 도약을 할 수 없습니다. 그러나 이제는 Symbol-Concept Association Network(SCAN)라는 새로운 신경망 구성 요소 덕분에 DeepMind의 AI는 인간의 시각을 모방하여 시각적 개념 계층을 이해할 수 있습니다.

새롭고 멋진 이름의 SCAN: Learning Abstract Hierarchical Compositional Visual Concepts에서, DeepMind 팀은 AI에서 인간과 같은 사고 프로세스를 복제하는 방법을 설명합니다. 뇌.

본질적으로 DeepMind는 이제 인간 아이처럼 시각적 세계를 이해하는 관점에서 생각하고 있습니다. 시야 범위가 제한되어 있고 물체가 시야에 들어옵니다. 색상, 모양, 크기, 심지어 공간에서의 위치 및 조명과 같은 물리적 특성 측면에서 사과, 모자 또는 여행 가방과 같은 물체를 해석합니다.

그런 다음 DeepMind는 이를 어휘 확인 및 보고 있는 내용에 대한 설명과 결합합니다. 따라서 파란색 벽에 빨간 사과가 있는 경우 연구원은 AI에게 "빨간 사과"를 보고 있다고 알립니다. 푸른 벽.” 즉, DeepMind AI는 단순히 사과를 보고 이미지 아카이브에 저장된 다른 사과 이미지와 비교하지 않습니다. 사과가 실제로 어떻게 생겼는지 학습합니다.

SCAN은 각 구성 요소와 여행 가방의 기본 물체가 무엇인지 알고 있습니다. 물체를 서로 구별하는 방법을 이해합니다. 따라서 "woog"로 알려진 넌센스 개체를 생성하도록 요청하면 SCAN은 이미 학습한 정보에서 woog가 어떻게 생겼는지 생각하는 것을 생성합니다. 분명히 노란색 벽 앞의 분홍색 바닥에 있는 녹색 물체입니다.

걷는 법을 배운 구글 딥마인드

거의 확실하게 AI 반대자들이 긴장하게 만드는 움직임에서 DeepMind는 걷는 방법을 스스로 가르쳤습니다. 이것은 슈퍼컴퓨터가 서서 DeepMind 사무실 주변을 돌아다니는 것을 의미하는 것이 아니라 AI가 보행의 작동 방식과 자체 균형 및 운동 제어 기술을 이해한다는 것을 의미합니다.

Boston Dynamic의 다양한 보행 로봇과 비교할 때 이것이 그다지 까다롭지 않다고 생각할 수도 있지만 DeepMind는 그 이상입니다.

단순히 로봇에게 걷는 방법을 알려주는 대신 DeepMind의 AI는 디지털 팔다리를 이해하는 법을 배우고 있습니다. 복잡한 환경에서 과제를 극복할 수 있도록 걷는 방법, 자신의 운동량과 물리적 공간을 이해하는 방법을 배우고 있습니다. 그것이 인간이 암벽을 오르고 장애물을 달릴 수 있을 뿐만 아니라 정상적으로 길을 걸을 수 있는 이유입니다. 우리는 하나의 목적을 위해 만들어지지 않았습니다.

전통적으로 로봇에게 걷기를 가르치려면 모션 캡처 데이터를 시스템에 입력해야 했습니다. 이는 Ai가 새로운 상황에 쉽게 적응하지 못하게 할 뿐만 아니라 시기적절합니다. DeepMind는 AI가 넘어지지 않고 앞으로 걸을 수 있도록 훈련시켰습니다. 달리고, 점프하고, 돌아서고, 웅크려야 하는 다양한 디지털 환경에서 극복하다.