LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions
- Chuanneng Sun, Student Member, IEEE, Songjun Huang, Student Member, IEEE, and Dario Pompili, Fellow, IEEE
서론
- LLM 기반 강화학습(RL)은 단일 에이전트 환경에서 성공적인 성과를 거두었으나, 이를 다중 에이전트 시스템(MAS)으로 확장하는 것은 쉽지 않음.
- 다중 에이전트 시스템에서는 에이전트 간의 협력과 의사소통이 중요한데, 단일 에이전트 RL 프레임워크에서는 이러한 요소들이 충분히 고려되지 않음.
- MARL(다중 에이전트 강화학습)은 MAS의 협력 문제를 해결하는 접근법으로 인기를 끌고 있으며, 기존의 IRL(개별 강화학습) 및 전통적 최적화 기반 솔루션보다 확장성과 불확실성, 동적 변화에 강한 모습을 보임.
- MARL에서 에이전트들은 공유된 환경 내에서 상호작용하고, 동시에 정책을 학습하며, 다른 에이전트와 의사소통을 통해 협력함.
- 하지만 에이전트 간의 의사소통 내용과 방법에 대한 연구는 아직 부족함.

개요
- LLM(대형 언어 모델)은 에이전트 간의 언어적 단서를 활용하여 의사소통과 협력을 촉진할 수 있음.
- LLM을 기반으로 한 MARL은 에이전트들이 역할을 협상하고, 행동을 조정하며, 환경 또는 내부 상태에 대한 정보를 교환하는 데에 언어를 사용할 수 있음
- 이는 복잡하고 예측 불가능한 환경에서 지능적이고 유연한 다중 에이전트 시스템을 설계하는 데 새로운 가능성을 열어줌
- 기존 연구들에서는 LLM 기반 다중 에이전트 프레임워크에 대한 논의가 있었으나, MARL에 대한 체계적인 개요는 부족했음
본 논문은 LLM 기반 MARL의 문제를 다루고, 향후 연구 방향을 제시
- LLM 기반 강화학습(RL)은 질문 응답, 산술 문제 해결, 시 작성 등 다양한 작업에서 뛰어난 능력을 보임.
- LLM 기반 강화학습을 다중 에이전트 시스템(MAS)으로 확장하는 것은 간단하지 않으며, 에이전트 간의 협력과 의사소통과 같은 요소들이 단일 에이전트 RL 프레임워크에서는 고려되지 않음.
- 특히, 다수의 에이전트가 공동의 목표를 가지고 협력하는 과제와 이들 간의 의사소통에 초점을 맞춤.
- MARL(다중 에이전트 강화학습)은 MAS의 협력 문제 해결을 위한 인기 있는 접근법으로, 확장성 및 불확실성과 동적 변화에 대한 강점을 가짐.
- MARL에서는 여러 에이전트가 공유된 환경에서 상호작용하며 동시에 정책을 학습하고, 서로 소통하면서 협력함.
- 하지만 에이전트 간 의사소통의 내용과 방식에 대한 연구는 여전히 부족함.
- LLM을 활용하면 에이전트들은 역할을 협상하고, 행동을 조정하며, 환경이나 내부 상태에 대한 정보를 교환할 수 있어 목표 달성을 더 효과적으로 이끌 수 있음.
- 이러한 언어 기반 협력은 복잡한 시나리오에서 중요한 역할을 하며, 예측 불가능한 환경에서 지능적이고 유연한 MAS 설계에 새로운 가능성을 제시함.
- 기존 연구에서는 LLM 기반 다중 에이전트 프레임워크에 대한 논의가 있었으나, 본 논문은 LLM 기반 MARL 문제를 체계적으로 다루고, 향후 연구 방향을 제시함.
II. PRELIMINARIES(예비조사)
A.MARL Problem Definition
MARL 문제 정의: MARL은 Decentralized Partially Observable Markov Decision Process(Dec-POMDP)으로 모델링되며, N개의 에이전트로 구성된 상태 집합(s ∈ S), 행동 집합(A1,...,AN), 관찰 집합(O1,...,ON)으로 구성됨.
각 에이전트는 정책(πi)과 보상 함수(ri)를 가지며, 목표는 총 기대 수익을 극대화하는 것임.
Dec-POMDP의 핵심 차이점은 부분 관측성으로, 각 에이전트는 다른 에이전트의 행동과 결과를 직접 관찰할 수 없어 문제 해결이 어려워짐.
전통적인 MARL: 협력 학습과 통신 학습으로 나뉨.
| 연구 분야 | 프레임워크 | 연구 내용 |
| 협력 학습 | QMIX, QTRAN, MADDPG, MAPPO | 중앙 집중식 훈련을 통해 에이전트 간 협력 능력 학습 |
| 통신 학습 | 에이전트들이 메시지 내용을 조정하거나 통신 네트워크 구조를 최적화하여 상호 전략 조정 및 성능 개선 | |
| LLM 기반 단일 에이전트 RL | LLM이 다양한 작업에서 뛰어난 성능을 보이며 여러 결정 프레임워크가 제안됨 | |
| Open-loop LLM 기반 RL | ReAct, Reflexion, ADaPT | LLM이 관찰에 따라 "생각"을 생성해 문제를 해결하도록 유도 |
| Closed-loop LLM 기반 RL | Refiner, Retroformer, REX | 피드백을 통한 폐루프 제어로 성능 향상 |
기존 LLM 기반 MARL 연구:

| 연구자 | 프레임워크 | 연구 내용 |
| Huang et al. | γ-Bench | 다양한 다중 에이전트 게임에서 GPT 모델의 성능 분석 |
| Liu et al. | DyLAN | 동적 에이전트 네트워크 구성, 효율적인 작업 수행 |
| Slumbers et al. | FAMA | 자연어 의사소통 및 중앙 집중형 비평가 구조 통합 |
| Chen et al. | - | 에이전트 간 협상 과정 및 합의 형성의 동적 변화 분석 |
| Li et al. | ToM | Theory of Mind(ToM) 모델링 연구 |
| Hong et al. | MetaGPT | 메시지 풀을 활용한 에이전트 간 의사소통 |
| 연구자 | 프레임워크 | 연구 내용 |
| Zhang et al. | CoELA | 다중 에이전트의 협력적 의사결정을 위한 LLM 통합 모듈형 프레임워크 |
| Kannan et al. | SMART-LLM | 로봇 팀의 고급 작업 계획을 위한 LLM 통합 |
| Mandi et al. | RoCo | 다중 로봇 팔 협력을 위한 프레임워크 |
| Yu et al. | Co-NavGPT | 단일 LLM을 사용한 다중 에이전트 네비게이션 프레임워크 |
| Guo et al. | Criticize-Reflect | 여러 에이전트의 협력 및 의사소통 연구 |
전반적으로, 언어 기반 MARL 연구는 아직 초기 단계에 있으나, 다중 에이전트 시스템(MAS)의 능력을 향상시킬 잠재력이 크며\ 자연어 사용을 통해 시스템이 복잡한 환경에서 높은 수준의 협력과 이해를 달성 가능.
3.미개척 연구 문제:
언어 기반 MARL은 아직 많은 미해결 문제를 포함하고 있으며, 추가적인 연구를 위해 네 가지 잠재적 연구 방향을 제시함.
i) 성격 기반 협력 (IV-A):
- 이전 연구에서 다른 성격을 가진 에이전트들이 더 나은 성능을 보여줌.
- 언어 기반 MARL에서는 에이전트의 성격을 프롬프트를 통해 할당할 수 있으며, 서로 다른 성격을 가진 에이전트 팀이 더 나은 성과를 낼 수 있음.
- 개인화된 에이전트를 통해 갈등 해결 및 협상 과정이 인간 상호작용과 유사하게 이루어질 수 있음.
- 이러한 에이전트의 언어적 행동 구현에는 언어 모델의 바람직하지 않은 편향을 방지하고, 복잡한 상호작용 문맥에 적응할 수 있는 모델 학습이 필요함.
- 연구 방향으로는 성격 기반 언어 모델을 MARL 시스템에 효과적으로 통합하는 프레임워크 개발 및 새로운 평가 지표 개발 등이 있음
- 경쟁적 에이전트 연구도 가능하지만, 동일한 목표를 달성하기 위한 건설적인 경쟁을 의미

ii) Language-enabled Human-in/on-the-Loop Frameworks
- 인간-루프(Human-in-the-loop) 프레임워크: 인간이 에이전트로서 환경에 영향을 미치는 역할을 수행하며, 실시간으로 피드백이나 보상을 제공해 에이전트의 행동을 조정함.
- 예: 인간이 알고리즘적 강화 신호로는 즉각적으로 감지되지 않는 잠재적 오류를 피하도록 에이전트를 안내.
- 인간-감시(Human-on-the-loop) 프레임워크: 인간이 감독 역할을 수행하며, 필요할 때만 시스템에 개입.
- 예: 자율 주행 차량에서 인간 감독자가 복잡하거나 위험한 도로 상황에서 개입.
- 언어 통합의 이점:
- 자연어는 인간과 에이전트 간 명확하고 직관적인 소통을 가능하게 하며, 에이전트가 상태 보고, 결정 설명, 명확성 요청 등을 할 수 있DMA
- 언어는 에이전트 간 지식 전달에도 유용하며, 다중 에이전트가 다양한 역할을 수행하는 상황에서 팀의 일관성을 유지하고 초보 에이전트를 안내할 수 있음.
- 향후 연구 방향으로 인간 감독자와 에이전트 간 상호작용 최적화. 및 상황에 맞는 대화 생성을 위한 고급 언어 모델 개발 이를 통해 언어 기반 소통의 정보 전달력뿐만 아니라 실용적이고 신속한 실행 가능성 확보.
iii) 전통적 MARL과 LLM 공동 설계:
- LLM의 대규모 모델 특성으로 인해 소형 로봇이나 IoT 기기에서 추론을 수행하기 어려움.
- LLM을 중앙 집중형 비평가로 활용해 배우기 역할을 안내하고, 실행 시에는 이를 제거하는 방식으로 효율성을 높일 수 있음.
- 지식 증류 과정을 개선하여 LLM에서 소형 모델로 지식을 전달하는 방향으로 연구 필요.
- 문맥 증류(context distillation)를 활용해 특정 작업에 필요한 필수 특징을 소형 모델로 전이.
- 예: 창고 로봇 제어 시 사람과의 충돌을 피하도록 하는 문맥을 미리 정의.
- 증류된 모델을 사용한 특화된 통신 프로토콜을 설계하여 실시간 의사결정 최적화 및 에이전트 간의 정보 전달을 효율적으로 수행.
- 적응형 메커니즘 통합:
- 실행 환경으로부터의 피드백에 따라 모델 압축 수준이나 통신 프로토콜을 동적으로 조정.
- 이러한 적응력은 빠르게 변화하는 환경에서 특히 유용함.
- 특화된 하드웨어 개발:
- 소형 모델 실행을 최적화하는 특화된 하드웨어 개발 필요.
- 이는 이동식 또는 내장 시스템에 필수적인 전력 효율성을 제공함
iiii) 안전 및 보안 문제:
- 에이전트 간 통신 보안을 강화하여 도청이나 악의적 데이터 주입 방지.
- 언어 모델 학습 과정에 대한 공격 방지를 위해 적대적 학습 및 입력 검증 기술을 도입.
- 실시간 모니터링을 통해 보안 침해나 안전 프로토콜 실패를 감지하고, 문제가 발생한 에이전트를 격리하여 안전한 상태로 되돌리는 대응 전략 필요.
결론:
- 본 논문에서는 기존의 LLM을 사용하지 않는 다중 에이전트 강화학습(MARL), LLM 기반 단일 에이전트 RL, 그리고 기존 LLM 기반 MARL 프레임워크를 간단히 개요를 제시함.
- 다중 에이전트 성격 기반 연구부터 안전과 보안까지 다양한 연구 방향을 논의함.
- LLM 기반 MARL은 아직 연구가 미비하지만, LLM의 뛰어난 능력과 문맥 내 해석 가능성 덕분에 큰 잠재력을 가짐.
- LLM을 활용하여 MARL 프레임워크를 설계하는 것은 지식이 자연어를 통해 전이되고 교환되는 방식으로, 동물이나 인간의 그룹 학습 과정을 모델링하는 것과 유사하게 될 수 있음.
- 이 논문이 다중 에이전트 지능의 경계를 확장하고 더 많은 연구를 유도하기를 기대함.
'논문 리뷰' 카테고리의 다른 글
| 멀티에이전트를 기반으로한 대용량언어모델 (5) | 2024.10.21 |
|---|---|
| ai는 경제적 행위자인가? 효용효과를 통해 바라보는 llms의 행동적 편견 (9) | 2024.10.21 |
| 시장은 그 스스로 비정상성을 제거하는가? -논문 리뷰 (2) | 2024.10.20 |
| 기계 협력 심리학: GPT 모델이 경제 게임에서 이타주의, 협력, 경쟁, 이기심에 대한 프롬프트를 구체화할 수 있을까? (4) | 2024.10.15 |
| zero-intelligence robots and the double auction market: a graphical tour( 제로 지능 로봇과 이중 경매 시장 (4) | 2024.10.13 |