구글 딥마인드는 제미니 3 플래시에 사진을 분석하는 획기적인 새로운 방식을 탑재했습니다. 기존 AI는 이미지를 빠르게 훑어보는 데 그쳤습니다. 작은 일련번호나 멀리 있는 표지판처럼 세부 사항이 흐릿하면 AI는 그저 추측할 수밖에 없었습니다. 하지만 에이전트 비전(Agentic Vision)은 이러한 방식을 완전히 바꿉니다. AI는 추측하는 대신 이미지를 확대하고, 마치 사람이 눈을 가늘게 뜨고 무언가를 알아내려는 것처럼 자세히 분석합니다.

보기 전에 생각하기
인공지능은 수동적인 관찰자가 되는 대신 세 가지 행동 과정을 거칩니다. 첫 번째 단계는 질문에 대해 생각하고 전체적인 상황을 살펴보는 것입니다. 만약 모든 것을 명확하게 볼 수 없다고 판단되면, 인공지능은 직접 행동에 나섭니다. 이미지를 확대, 자르기, 회전시키는 코드를 직접 작성하는 것입니다. 마지막으로, 새롭게 개선된 이미지를 분석하여 정확한 답을 도출합니다. 이러한 "생각-행동-관찰" 과정을 통해 인공지능은 더 이상 추측에 의존하지 않고 필요한 증거를 찾아냅니다.

어려운 문제 해결하기
이 새로운 접근 방식은 이미 현실 세계에서 큰 변화를 가져오고 있습니다. 기술 테스트에서 AI의 정확도가 크게 향상되었습니다. 복잡한 설계도를 다루는 사람들에게 AI는 이제 미세한 건축 세부 사항까지 확대하여 모든 것이 완벽한지 확인할 수 있도록 도와줍니다. 수학 분야에서도 혁신적인 변화를 가져올 것입니다. 복잡한 차트를 보여주면 AI는 단순히 선만 보는 것이 아니라, 코드를 작성하여 원시 데이터를 추출하고 자체적으로 정밀한 그래프를 생성하여 사실을 재확인합니다.
자연스러운 시각
구글 딥마인드는 이것이 단지 시작일 뿐이라고 말합니다. 현재 인공지능은 세부 사항을 언제 확대해야 하는지 파악하는 데 이미 매우 뛰어난 수준에 도달했습니다. 미래에는 이러한 모델들이 더욱 독립적이 될 것입니다. 인공지능은 사용자가 자세히 살펴보라고 지시하지 않아도 복잡한 시각적 작업을 스스로 완료할 수 있게 될 것입니다. 이는 해당 기술이 생각만큼 로봇 같지 않다는 인상을 줍니다.
출처 기치 나
부인 성명: 위에 명시된 정보는 Alibaba.com과는 별개로 gizchina.com에서 제공합니다. Alibaba.com은 판매자 및 제품의 품질과 신뢰성에 대해 어떠한 진술이나 보증도 하지 않습니다. Alibaba.com은 콘텐츠의 저작권 침해에 대한 어떠한 책임도 명시적으로 부인합니다.



