LangChain과 Anthropic의 가이드라인을 바탕으로 딥 에이전트 평가 방법을 소개합니다. 5가지 평가 패턴 적용, pytest와 LangSmith를 사용한 오프라인 평가 구축, 프로덕션 온라인 모니터링 구성 방법을 배울 수 있습니다. 텍스트-SQL 딥 에이전트를 Amazon Bedrock으로 개발하는 전체 라이프사이클을 다룹니다.
딥 에이전트 평가 패턴은 정확성, 효율성, 안전성, 견고성, 사용자 경험으로 구성됩니다. 오프라인 평가는 pytest를 사용해 자동화하고, LangSmith를 통해 결과를 추적할 수 있습니다. 프로덕션 환경에서는 온라인 모니터링을 통해 지속적인 성능 개선을 지원합니다.
본 가이드는 텍스트-SQL 딥 에이전트를 예시로, 개발부터 프로덕션까지의 전체 과정을 안내하며, LangSmith를 활용한 효과적인 에이전트 평가 및 모니터링 방법을 제시합니다.