트랜스포머 레거시 에볼루션 디럭스 비치콤머 리뷰
- 작성일25-01-28 15:18
- 조회2
- 작성자Elizabeth
Mind 에볼루션 Evolution (사진 출처 : Evolving Deeper LLM Thinking)인공지능 읽어주는 남자입니다.구글 딥마인드에서 공개한 새로운 추론 시간 스케일링 기술인 ‘Mind Evolution(마인드 에볼루션)’에 대한 두 번째 이야기입니다. 마인드 에볼루션은 또한 다양한 솔루션을 탐색하기 위해 ‘island’ 접근 방식을 사용합니다. 각 단계에서 알고리즘은 자체적으로 진화하는 별도의 솔루션 그룹을 생성합니다. 그런 다음 최적의 에볼루션 솔루션을 한 그룹에서 다른 그룹으로 ‘마이그레이션’하며 결합하고 새로운 솔루션을 생성합니다. 연구진은 모델이 하나의 답만 생성하는 ‘1-pass’, 모델이 여러 개의 답을 생성하고 가장 좋은 답을 선택하는 ‘Best-of-N’, 10개의 후보 솔루션을 독립적으로 제안한 후 80턴 동안 개별적으로 수정하는 수정 기법인 ‘순차적 수정+’ 등의 기준선에 대해 마인드 에볼루션을 테스트했습니다.순차적 수정+는 에볼루션 발견된 솔루션의 가장 좋은 부분을 결합하는 유전 알고리즘 구성 요소는 없지만 마인드 진화에 가장 근접합니다. 참고로 여기에는 OpenAI o1 preview를 사용하는 추가 1-pass 기준선도 포함되어 있습니다. 연구원들은 빠르고 경제적인 ‘Gemini 1.5 Flash’로 대부분의 테스트를 수행했습니다. 또한 플래쉬 모델로 문제를 해결할 수 없는 경우 Gemini 1.5 Pro 모델을 에볼루션 사용하는 2단계 접근 방식도 탐색했습니다. 이 2단계 접근 방식은 모든 문제 인스턴스에 대해 프로 모델을 사용하는 것보다 비용 효율성이 높습니다. Mind Evolution (사진 출처 : Evolving Deeper LLM Thinking)연구진은 여행 및 회의 계획과 같은 작업에 대한 여러 자연어 계획 벤치마크에서 마인드 에볼루션을 테스트했습니다. 이전 연구에 따르면 LLM은 에볼루션 공식 솔버의 도움 없이는 이러한 작업에서 좋은 성능을 발휘할 수 없었습니다. 예를 들어 자연어로 표현된 사용자 선호도와 제약 조건에 따라 여행 계획을 구성하는 것을 시뮬레이션하는 벤치마크인 ‘TravelPlanner’에서 Gemini 1.5 Flash와 o1-preview의 성공률은 5.6%와 11.7%에 불과합니다. 독립적으로 생성된 800개 이상의 Best-of-N을 활용하더라도 Gemini 1.5 Flash는 TravelPlanner에서 55.6%의 성공률에 에볼루션 그쳤습니다.모든 테스트에서 마인드 에볼루션은 특히 과제의 난이도가 높아질수록 기준선을 큰 차이로 앞질렀습니다. 예를 들어 마인드 에볼루션은 TravelPlanner에서 95%의 성공률을 달성했습니다. 각 도시에 며칠씩 방문할 일정을 만드는 TravelPlanner 벤치마크에서는 테스트 인스턴스에서 마인드 에볼루션이 94.1%를 달성한 반면 다른 방법은 최대 77%의 성공률을 기록했습니다. 흥미로운 점은 도시 수가 늘어날수록 마인드 에볼루션 에볼루션과 다른 기법 간의 격차가 커지는 데 이는 더 복잡한 계획 작업을 처리할 수 있는 마인드 에볼루션의 능력을 나타냅니다.Mind Evolution (사진 출처 : Evolving Deeper LLM Thinking)2단계 프로세스를 통해 마인드 에볼루션은 모든 벤치마크에서 거의 완벽에 가까운 성공률을 달성했습니다. 또한 마인드 에볼루션은 순차적 수정+의 성능에 근접하는 유일한 기술인 에볼루션 순차적 수정+가 사용하는 토큰 수의 일부를 사용하여 자연어 계획 문제를 해결하는 데 비용 효율적인 접근 방식임을 입증했습니다. 연구진은 “전반적으로 이러한 결과는 확률론적 탐색을 위한 광범위한 검색과 솔루션 개선을 위해 LLM을 활용하는 심층 검색을 결합한 진화 전략의 분명한 이점을 보여줍니다.”라고 설명했습니다. AI 시대에 가장 인간답게..#구글딥마인드 #추론시간스케일링기술 #Mind Evolution 에볼루션 #마인드에볼루션
등록된 댓글
등록된 댓글이 없습니다.