hermes/vLLM) 사내 GPU 서버로 상용 API 없는 로컬 AI(Gemma4) 비서 구축하기

May 17, 2026 2 분 소요

1. 개요 및 인프라 환경

최근 오픈소스 LLM과 자율형 AI 에이전트(Autonomous AI Agent)의 발전 속도는 눈이 부실 정도입니다. 보안 및 데이터 주권 문제로 사내 데이터를 외부 상용 API(Claude, Gemini 등)에 전송하기 어려운 환경에서, 로컬 인프라만을 활용해 고성능 에이전트를 구축할 수 있는지 검증하기 위해 테스트를 진행했습니다.

인프라: 사내 L40S GPU 서버
추론 엔진: vLLM (OpenAI-compatible API 엔드포인트 활용)
사용 모델: Gemma 4 27B
에이전트 프레임워크: Hermes Agent (Nous Research)

2. 세팅 과정 및 아키텍처

Hermes Agent는 스스로 기술(Skill)을 학습하고 메모리를 유지하는 자율형 에이전트입니다. 고정된 챗봇 형태를 넘어 로컬 컴퓨터나 서버 환경에서 파일 관리, 코드 실행, API 호출 등 실제 ‘행동’을 수행할 수 있습니다.

vLLM을 통해 사내 L40S 서버에 Gemma 4 27B 모델을 서빙하면 상용 API와 동일한 규격의 OpenAI 호환 엔드포인트(http://<server-ip>:8000/v1)가 생성됩니다. Hermes Agent의 config.yaml 설정에서 해당 엔드포인트와 API 키를 연동하고, Slack 또는 터미널 게이트웨이를 연결하는 방식으로 완전한 온프레미스(On-Premise) 자율형 에이전트 환경을 구축했습니다.

3. 로컬 에이전트 시대를 맞이하며 느낀 점

1) 상용 LLM 종속성으로부터의 해방

이번 테스트를 통해 가장 크게 체감한 점은, 이제 더 이상 비싼 구독료를 내며 Claude나 Gemini 같은 상용 API에 목맬 필요가 없어졌다는 것입니다. 양질의 데이터로 튜닝된 로컬 모델과 vLLM의 빠른 추론 속도, 그리고 스스로 판단하고 행동하는 Hermes Agent가 결합되니 실무 비서로서 손색없는 성능을 보여주었습니다.

2) 인프라 한 대로 완성되는 AI 비서 (7B의 한계와 27B의 발견)

사실 처음에는 가볍게 가기 위해 7B급 소형 모델로 테스트를 시작했습니다. 하지만 자율형 에이전트가 요구하는 복잡한 추론이나 정밀한 도구 사용(Tool Calling), 멀티턴 컨텍스트 유지에서 확실히 성능이 따라주지 못하는 한계를 느꼈습니다. 그렇다고 120B 이상의 초대형 모델을 올리자니 단일 카드 인프라 환경에서는 서빙 자체가 불가능에 가까웠죠.

이에 타협점이자 단일 L40S VRAM 환경에 올릴 수 있는 현실적인 최대치 격인 27B 모델(Gemma 4 27B)을 올려보았습니다. 결과는 놀라웠습니다. 소형 모델에서 보이던 나사 빠진 행동이나 프롬프트 이탈 현상이 눈에 띄게 사라졌고, 에이전트로서 온전히 동작하기 시작했습니다.

이제는 정말 NVIDIA DGX Spark나 사내 GPU 서버(L40S 등) 딱 한 대만 받쳐준다면, 외부 네트워크와 완전히 차단된 에어갭(Air-gapped) 환경에서도 자유롭게 도구를 다루고 코딩 디버깅을 수행하는 ‘나만의 자율형 AI 비서’를 구축할 수 있는 시대가 도래했음을 실감했습니다.

3) Slack 기반의 하이브리드 AI 개발 팀 구상

이번 테스트를 마치며 한 가지 재미있는 상상을 해보았습니다. (비록 지금은 당장 예산적 여유가 없어 머릿속으로만 그리고 있지만ㅜ) 향후 Slack 안에 ‘나만의 AI 멀티 에이전트 개발 팀’을 구성하면 어떨까 하는 점입니다.

모든 역할을 비싼 상용 API로 채우는 것이 아니라, 효율적인 하이브리드(Hybrid) 구조를 가져가는 것입니다. 예를 들어, 전체 아키텍처를 설계하고 복잡한 시스템 디버깅을 담당하는 ‘최상위 시니어 PM/개발자’ 역할에는 Claude나 GPT-4o 같은 고비용 상용 모델을 매핑합니다. 반면, 일반적인 컴포넌트 모듈 개발, 유닛 테스트 작성, 단순 반복성 코딩 태스크를 담당하는 ‘주니어 개발자’ 역할은 사내 NVIDIA DGX Spark 같은 소형 GPU 기기에 올린 로컬 27B 모델로 배치하는 방식입니다.

이렇게 스쿼드(Squad)를 짜면 상용 API 구독료와 토큰 비용을 획기적으로 낮추면서도, 보안이 유지되는 고효율의 사내 AI 개발 팀을 메신저 안에 완벽하게 이식할 수 있겠다는 확신이 들었습니다.

4) 맺음말

과거에는 상용 LLM의 성능을 오픈소스가 따라잡기 어려울 것이라는 시각이 지배적이었지만, 서빙 최적화 도구(vLLM)와 경량화된 고성능 모델(Gemma), 그리고 에이전트 프레임워크의 오픈소스화로 판도가 바뀌고 있습니다. 인프라 비용만 확보된다면 운영 비용(Token Cost) 걱정 없이 무한히 태스크를 수행할 수 있는 로컬 에이전트 생태계는 앞으로 사내 업무 자동화의 핵심 아키텍처가 될 것입니다.

Twitter Facebook LinkedIn

hermes/vLLM) 사내 GPU 서버로 상용 API 없는 로컬 AI(Gemma4) 비서 구축하기

1. 개요 및 인프라 환경

2. 세팅 과정 및 아키텍처

3. 로컬 에이전트 시대를 맞이하며 느낀 점

1) 상용 LLM 종속성으로부터의 해방

2) 인프라 한 대로 완성되는 AI 비서 (7B의 한계와 27B의 발견)

3) Slack 기반의 하이브리드 AI 개발 팀 구상

4) 맺음말

공유하기

댓글남기기

참고

논문 정리) DeepAgent, A General Reasoning Agent with Scalable Toolsets(읽는 중)

논문 정리) TurboQuant, Online Vector Quantization with Near-optimal Distortion Rate

Openclaw) 무료 GCP + 무료 Gemini 테스트

논문 정리) Training language models to follow instructions with human feedback