am17an 사용자가 llama.cpp 프로젝트에 llama_context의 최대 출력 제한 관련 PR을 제출했어요. n_seqs를 고려하여 로짓 공간을 예약하여 VRAM 사용량을 줄이는 기능이 포함되어 있으며, perplexity 테스트 결과 정상 작동하는 것으로 확인됐어요. 서버 컨텍스트에서 토큰 수를 1로 제한하는 API를 도입하는 방안도 제안됐어요.