카멜레온을 만나보세요: 플러그 | 길림 패치 코드 그룹

다양한 NLP 작업을 위한 최근 LLM(대형 언어 모델)은 GPT-3, PaLM, LLaMA, ChatGPT 및 최근에 제안된 GPT-4 등 주목할만한 사례를 포함하여 놀라운 발전을 이루었습니다. 이러한 모델은 제로 샷 상황에서 또는 몇 가지 인스턴스의 도움으로 다양한 작업을 해결할 수 있기 때문에 인간과 유사한 계획 및 의사 결정에 대한 엄청난 가능성을 가지고 있습니다. 상황 내 학습, 수학적 추론, 상식적 사고를 포함한 창발적 기술은 LLM에서 보여줍니다. 그러나 LLM에는 외부 도구를 사용할 수 없거나 현재 정보에 액세스할 수 없거나 수학적으로 정확하게 추론할 수 없는 등의 기본 제약 조건이 있습니다.

진행 중인 연구 영역은 외부 도구 및 리소스에 대한 액세스를 통해 언어 모델을 강화하고 LLM의 이러한 제약을 해결하기 위해 야외 도구와 플러그 앤 플레이 모듈러 전략의 통합을 조사하는 데 중점을 두고 있습니다. 최근 연구에서는 LLM을 사용하여 논리적 추론 문제를 보다 효율적으로 완료하고 강력한 컴퓨터 리소스를 활용하여 수학적 추론 능력을 향상시키는 복잡한 프로그램을 구성합니다. 예를 들어, LLM은 외부 지식 소스와 온라인 검색 엔진의 도움으로 실시간 정보를 획득하고 도메인별 지식을 사용할 수 있습니다. ViperGPT, Visual ChatGPT, VisProg 및 HuggingGPT를 포함한 또 다른 현재 연구 라인은 여러 기본 컴퓨터 비전 모델을 통합하여 LLM에게 시각적 추론 문제를 처리하는 데 필요한 기술을 제공합니다.

상당한 발전에도 불구하고 오늘날의 도구 강화 LLM은 실제 문의에 응답하는 동안 여전히 큰 장애물에 직면하고 있습니다. 대부분의 최신 기술은 제한된 도구 세트로 제한되거나 특정 도메인에 대한 특정 장치에 의존하므로 다양한 문의에 일반화하기가 어렵습니다. 그림 1은 이를 보여줍니다. "이 광고에 사용된 주요 설득력 있는 호소는 무엇입니까?" 1) 광고 그림에 텍스트 컨텍스트가 있다고 가정하고 이 쿼리에 응답하기 위한 의미를 이해하기 위해 텍스트 디코더를 호출합니다. 2) "설득력 있는 호소"가 무엇인지, 그리고 다양한 유형이 어떻게 다른지 설명하기 위한 배경 정보를 찾습니다. 3) 입력 질문의 힌트와 이전 단계의 중간 결과를 사용하여 솔루션을 제시합니다. 4) 마지막으로 작업별 방식으로 응답을 제시합니다.

반면에 "어떤 동물의 피부가 추운 곳에서 생존하기에 적합합니까?"라는 질문에 응답하는 동안 사진 정보를 분석하기 위한 이미지 캡션 작성자, 도메인 지식을 수집하기 위한 웹 검색 엔진과 같은 추가 모듈에 문의해야 할 수도 있습니다. 과학용어를 파악하세요. UCLA와 Microsoft Research의 연구원들은 이러한 문제를 해결하기 위해 거대한 언어 모델을 사용하는 플러그 앤 플레이 구성 추론 프레임워크인 Chameleon을 제공합니다. 카멜레온은 프로그램을 합성하여 여러 질문에 답할 수 있는 다양한 도구를 만들 수 있습니다.

Chameleon은 LLM을 기반으로 하는 자연어 플래너입니다. 기존 방법과 달리 LLM, 사전 구축된 컴퓨터 비전 모델, 온라인 검색 엔진, Python 기능 및 특정 목표를 위해 설계된 규칙 기반 모듈과 같은 다양한 도구를 사용합니다. Chameleon은 LLM의 상황별 학습 기능을 사용하여 이러한 프로그램을 생성하며 교육이 필요하지 않습니다. 기획자는 각 도구에 대한 설명과 도구 사용 사례를 통해 사용자 문의에 대한 최종 응답을 제공하기 위해 구성하고 실행할 도구의 적절한 순서를 추론할 수 있습니다.

카멜레온은 도메인별 프로그램을 만들던 초기 노력과 달리 자연어와 유사한 프로그램을 만듭니다. 이러한 프로그램은 오류 발생 가능성이 낮고 디버깅이 더 간단하며 프로그래밍 지식이 거의 없는 개인에게도 사용자 친화적이며 새 모듈을 포함하도록 확장 가능합니다. 프로그램의 각 모듈은 쿼리와 컨텍스트를 실행, 처리 및 캐시하고, 모듈에서 선택한 응답을 반환하고, 향후 모듈 실행을 위해 쿼리와 저장된 컨텍스트를 수정합니다. 모듈을 순차 프로그램으로 구성함으로써 업데이트된 쿼리와 이전에 캐시된 컨텍스트를 다음 모듈 실행 전반에 걸쳐 사용할 수 있습니다. ScienceQA와 TabMWP라는 두 가지 작업에서 그들은 카멜레온의 유연성과 잠재력을 보여줍니다.