논문 리뷰

LLM 기반 멀티 에이전트 강화학습 : 현황과 미래 방향

살미아키 2024. 10. 20. 19:55

LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions

- Chuanneng Sun, Student Member, IEEE, Songjun Huang, Student Member, IEEE, and Dario Pompili, Fellow, IEEE

서론

  • LLM 기반 강화학습(RL)은 단일 에이전트 환경에서 성공적인 성과를 거두었으나, 이를 다중 에이전트 시스템(MAS)으로 확장하는 것은 쉽지 않음.
  • 다중 에이전트 시스템에서는 에이전트 간의 협력과 의사소통이 중요한데, 단일 에이전트 RL 프레임워크에서는 이러한 요소들이 충분히 고려되지 않음.
  • MARL(다중 에이전트 강화학습)은 MAS의 협력 문제를 해결하는 접근법으로 인기를 끌고 있으며, 기존의 IRL(개별 강화학습) 및 전통적 최적화 기반 솔루션보다 확장성과 불확실성, 동적 변화에 강한 모습을 보임.
  • MARL에서 에이전트들은 공유된 환경 내에서 상호작용하고, 동시에 정책을 학습하며, 다른 에이전트와 의사소통을 통해 협력함.
  • 하지만 에이전트 간의 의사소통 내용과 방법에 대한 연구는 아직 부족함.
  •  

최근 3년간에 발전된 llm모

개요

  • LLM(대형 언어 모델)은 에이전트 간의 언어적 단서를 활용하여 의사소통과 협력을 촉진할 수 있음.
  • LLM을 기반으로 한 MARL은 에이전트들이 역할을 협상하고, 행동을 조정하며, 환경 또는 내부 상태에 대한 정보를 교환하는 데에 언어를 사용할 수 있음
  • 이는 복잡하고 예측 불가능한 환경에서 지능적이고 유연한 다중 에이전트 시스템을 설계하는 데 새로운 가능성을 열어줌
  • 기존 연구들에서는 LLM 기반 다중 에이전트 프레임워크에 대한 논의가 있었으나, MARL에 대한 체계적인 개요는 부족했음

본 논문은 LLM 기반 MARL의 문제를 다루고, 향후 연구 방향을 제시

 

  • LLM 기반 강화학습(RL)은 질문 응답, 산술 문제 해결, 시 작성 등 다양한 작업에서 뛰어난 능력을 보임.
  • LLM 기반 강화학습을 다중 에이전트 시스템(MAS)으로 확장하는 것은 간단하지 않으며, 에이전트 간의 협력과 의사소통과 같은 요소들이 단일 에이전트 RL 프레임워크에서는 고려되지 않음.
  • 특히, 다수의 에이전트가 공동의 목표를 가지고 협력하는 과제와 이들 간의 의사소통에 초점을 맞춤.
  • MARL(다중 에이전트 강화학습)은 MAS의 협력 문제 해결을 위한 인기 있는 접근법으로, 확장성 및 불확실성과 동적 변화에 대한 강점을 가짐.
  • MARL에서는 여러 에이전트가 공유된 환경에서 상호작용하며 동시에 정책을 학습하고, 서로 소통하면서 협력함.
  • 하지만 에이전트 간 의사소통의 내용과 방식에 대한 연구는 여전히 부족함.
  • LLM을 활용하면 에이전트들은 역할을 협상하고, 행동을 조정하며, 환경이나 내부 상태에 대한 정보를 교환할 수 있어 목표 달성을 더 효과적으로 이끌 수 있음.
  • 이러한 언어 기반 협력은 복잡한 시나리오에서 중요한 역할을 하며, 예측 불가능한 환경에서 지능적이고 유연한 MAS 설계에 새로운 가능성을 제시함.
  • 기존 연구에서는 LLM 기반 다중 에이전트 프레임워크에 대한 논의가 있었으나, 본 논문은 LLM 기반 MARL 문제를 체계적으로 다루고, 향후 연구 방향을 제시함.
  •  

  • II. PRELIMINARIES(예비조사)

A.MARL Problem Definition

 

MARL 문제 정의: MARL Decentralized Partially Observable Markov Decision Process(Dec-POMDP)으로 모델링되며, N개의 에이전트로 구성된 상태 집합(s ∈ S), 행동 집합(A1,...,AN), 관찰 집합(O1,...,ON)으로 구성됨.

각 에이전트는 정책(πi)과 보상 함수(ri)를 가지며, 목표는 총 기대 수익을 극대화하는 것임.

Dec-POMDP의 핵심 차이점은 부분 관측성으로, 각 에이전트는 다른 에이전트의 행동과 결과를 직접 관찰할 수 없어 문제 해결이 어려워짐.

 

 

전통적인 MARL: 협력 학습과 통신 학습으로 나뉨. 

연구 분야 프레임워크 연구 내용
협력 학습 QMIX, QTRAN, MADDPG, MAPPO 중앙 집중식 훈련을 통해 에이전트 간 협력 능력 학습
통신 학습   에이전트들이 메시지 내용을 조정하거나 통신 네트워크 구조를 최적화하여 상호 전략 조정 및 성능 개선
LLM 기반 단일 에이전트 RL   LLM이 다양한 작업에서 뛰어난 성능을 보이며 여러 결정 프레임워크가 제안됨
Open-loop LLM 기반 RL ReAct, Reflexion, ADaPT LLM이 관찰에 따라 "생각"을 생성해 문제를 해결하도록 유도
Closed-loop LLM 기반 RL Refiner, Retroformer, REX 피드백을 통한 폐루프 제어로 성능 향상

 

기존 LLM 기반 MARL 연구:

 

연구자 프레임워크 연구 내용
Huang et al. γ-Bench 다양한 다중 에이전트 게임에서 GPT 모델의 성능 분석
Liu et al. DyLAN 동적 에이전트 네트워크 구성, 효율적인 작업 수행
Slumbers et al. FAMA 자연어 의사소통 및 중앙 집중형 비평가 구조 통합
Chen et al. - 에이전트 간 협상 과정 및 합의 형성의 동적 변화 분석
Li et al. ToM Theory of Mind(ToM) 모델링 연구
Hong et al. MetaGPT 메시지 풀을 활용한 에이전트 간 의사소통

 

연구자 프레임워크 연구 내용
Zhang et al. CoELA 다중 에이전트의 협력적 의사결정을 위한 LLM 통합 모듈형 프레임워크
Kannan et al. SMART-LLM 로봇 팀의 고급 작업 계획을 위한 LLM 통합
Mandi et al. RoCo 다중 로봇 팔 협력을 위한 프레임워크
Yu et al. Co-NavGPT 단일 LLM을 사용한 다중 에이전트 네비게이션 프레임워크
Guo et al. Criticize-Reflect 여러 에이전트의 협력 및 의사소통 연구

 

전반적으로, 언어 기반 MARL 연구는 아직 초기 단계에 있으나, 다중 에이전트 시스템(MAS)의 능력을 향상시킬 잠재력이 크며\ 자연어 사용을 통해 시스템이 복잡한 환경에서 높은 수준의 협력과 이해를 달성 가능.

 

3.미개척 연구 문제:

언어 기반 MARL은 아직 많은 미해결 문제를 포함하고 있으며, 추가적인 연구를 위해 네 가지 잠재적 연구 방향을 제시함.

i) 성격 기반 협력 (IV-A):

  • 이전 연구에서 다른 성격을 가진 에이전트들이 더 나은 성능을 보여줌.
  • 언어 기반 MARL에서는 에이전트의 성격을 프롬프트를 통해 할당할 수 있으며, 서로 다른 성격을 가진 에이전트 팀이 더 나은 성과를 낼 수 있음.
  • 개인화된 에이전트를 통해 갈등 해결 및 협상 과정이 인간 상호작용과 유사하게 이루어질 수 있음.
  • 이러한 에이전트의 언어적 행동 구현에는 언어 모델의 바람직하지 않은 편향을 방지하고, 복잡한 상호작용 문맥에 적응할 수 있는 모델 학습이 필요함.
  • 연구 방향으로는 성격 기반 언어 모델을 MARL 시스템에 효과적으로 통합하는 프레임워크 개발 및 새로운 평가 지표 개발 등이 있음
  • 경쟁적 에이전트 연구도 가능하지만, 동일한 목표를 달성하기 위한 건설적인 경쟁을 의미

 

ii)  Language-enabled Human-in/on-the-Loop Frameworks

 

  • 인간-루프(Human-in-the-loop) 프레임워크: 인간이 에이전트로서 환경에 영향을 미치는 역할을 수행하며, 실시간으로 피드백이나 보상을 제공해 에이전트의 행동을 조정함.
  • 예: 인간이 알고리즘적 강화 신호로는 즉각적으로 감지되지 않는 잠재적 오류를 피하도록 에이전트를 안내.
  • 인간-감시(Human-on-the-loop) 프레임워크: 인간이 감독 역할을 수행하며, 필요할 때만 시스템에 개입.
  • 예: 자율 주행 차량에서 인간 감독자가 복잡하거나 위험한 도로 상황에서 개입.
  • 언어 통합의 이점:
  • 자연어는 인간과 에이전트 간 명확하고 직관적인 소통을 가능하게 하며, 에이전트가 상태 보고, 결정 설명, 명확성 요청 등을 할 수 있DMA
  • 언어는 에이전트 간 지식 전달에도 유용하며, 다중 에이전트가 다양한 역할을 수행하는 상황에서 팀의 일관성을 유지하고 초보 에이전트를 안내할 수 있음.
  • 향후 연구 방향으로 인간 감독자와 에이전트 간 상호작용 최적화. 및 상황에 맞는 대화 생성을 위한 고급 언어 모델 개발 이를 통해 언어 기반 소통의 정보 전달력뿐만 아니라 실용적이고 신속한 실행 가능성 확보.

iii)  전통적 MARL LLM 공동 설계:

  • LLM의 대규모 모델 특성으로 인해 소형 로봇이나 IoT 기기에서 추론을 수행하기 어려움.
  • LLM을 중앙 집중형 비평가로 활용해 배우기 역할을 안내하고, 실행 시에는 이를 제거하는 방식으로 효율성을 높일 수 있음.
  • 지식 증류 과정을 개선하여 LLM에서 소형 모델로 지식을 전달하는 방향으로 연구 필요.
  • 문맥 증류(context distillation)를 활용해 특정 작업에 필요한 필수 특징을 소형 모델로 전이.
  • 예: 창고 로봇 제어 시 사람과의 충돌을 피하도록 하는 문맥을 미리 정의.
  • 증류된 모델을 사용한 특화된 통신 프로토콜을 설계하여 실시간 의사결정 최적화 및 에이전트 간의 정보 전달을 효율적으로 수행.
  • 적응형 메커니즘 통합:
  • 실행 환경으로부터의 피드백에 따라 모델 압축 수준이나 통신 프로토콜을 동적으로 조정.
  • 이러한 적응력은 빠르게 변화하는 환경에서 특히 유용함.
  • 특화된 하드웨어 개발:
  • 소형 모델 실행을 최적화하는 특화된 하드웨어 개발 필요.
  • 이는 이동식 또는 내장 시스템에 필수적인 전력 효율성을 제공함

iiii) 안전 및 보안 문제:

  • 에이전트 간 통신 보안을 강화하여 도청이나 악의적 데이터 주입 방지.
  • 언어 모델 학습 과정에 대한 공격 방지를 위해 적대적 학습 및 입력 검증 기술을 도입.
  • 실시간 모니터링을 통해 보안 침해나 안전 프로토콜 실패를 감지하고, 문제가 발생한 에이전트를 격리하여 안전한 상태로 되돌리는 대응 전략 필요.

결론:

  • 본 논문에서는 기존의 LLM을 사용하지 않는 다중 에이전트 강화학습(MARL), LLM 기반 단일 에이전트 RL, 그리고 기존 LLM 기반 MARL 프레임워크를 간단히 개요를 제시함.
  • 다중 에이전트 성격 기반 연구부터 안전과 보안까지 다양한 연구 방향을 논의함.
  • LLM 기반 MARL은 아직 연구가 미비하지만, LLM의 뛰어난 능력과 문맥 내 해석 가능성 덕분에 큰 잠재력을 가짐.
  • LLM을 활용하여 MARL 프레임워크를 설계하는 것은 지식이 자연어를 통해 전이되고 교환되는 방식으로, 동물이나 인간의 그룹 학습 과정을 모델링하는 것과 유사하게 될 수 있음.
  • 이 논문이 다중 에이전트 지능의 경계를 확장하고 더 많은 연구를 유도하기를 기대함.