GeekNews
llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아 자동 최적화하는 터미널 도구 | GeekNews
요약
하드웨어 사양(RAM·CPU·GPU)에 맞는 LLM 모델을 자동으로 찾아 최적화해주는 터미널 도구입니다.
- 모델 가용성 평가: RAM·CPU·GPU 정보로 실행 가능 여부를 판정
- 점수화/정렬: 품질·속도·적합도·컨텍스트 기준으로 모델을 점수화
- 로컬 런타임 통합: Ollama, llama.cpp, MLX와 연결해 설치·감지·다운로드
- 동적 양자화/속도 추정: Q8_0~Q2_K 양자화 순회 및 GPU 대역폭 기반 속도 계산
- Plan 모드: 목표에 필요한 최소/권장 하드웨어를 역산하고 조합을 제안
핵심 포인트
- 하드웨어 기반 실행 가능 모델 추천
- 품질/속도/적합도/컨텍스트 점수화
- Ollama·llama.cpp·MLX 통합
- 동적 양자화(Q8_0~Q2_K)
- Plan 모드로 최소·권장 사양 역산
본문 정리
개요
- llmfit: 시스템 RAM·CPU·GPU를 감지해, 수백 개 LLM 모델 중 내 하드웨어에서 실제 실행 가능한 모델을 자동으로 찾아주는 터미널 도구
- 모델을 품질·속도·적합도·컨텍스트 기준으로 점수화하고, TUI(터미널 UI) 및 CLI 모드를 모두 지원
- 실행 모드별(예: GPU / CPU+GPU / CPU) 적합 수준을 Perfect / Good / Marginal / Too Tight로 제시
주요 기능
- 하드웨어 감지:
sysinfo,nvidia-smi,rocm-smi,system_profiler등으로 RAM·CPU·GPU 수집 - 모델 데이터베이스: HuggingFace API에서 모델 정보를 수집해
data/hf_models.json에 저장(주요 계열 포함) - 동적 양자화:
Q8_0~Q2_K계층을 순회하며 가용 메모리 내 최적 품질 양자화 자동 선택 - 속도 추정: GPU 메모리 대역폭 기반 계산식으로 속도를 근사(대역폭 테이블 내장)
- 적합도 분석: GPU/CPU+GPU/CPU 모드별 실행 가능 여부와 메모리 여유도를 평가
인터페이스(TUI/CLI)
- TUI 조작키
f: 적합도 필터a: 가용성 필터s: 정렬 기준 변경p: Plan 모드 진입d: 모델 다운로드t: 테마 변경
- Plan 모드
- 컨텍스트 길이, 양자화, 목표 토큰 속도 등을 수정해 필요 VRAM/RAM/CPU를 계산
- CLI 모드 예시(하위 명령)
llmfit --clillmfit fit --perfect -n 5llmfit recommend --json
- 내장 테마: Default, Dracula, Solarized, Nord, Monokai, Gruvbox
로컬 런타임 통합
- Ollama: 로컬/원격 인스턴스 연결(예:
OLLAMA_HOST환경 변수) 후 설치 모델 감지·다운로드 - llama.cpp: HuggingFace GGUF 파일을 로컬 캐시에 다운로드하고 설치 여부 표시
- MLX: Apple Silicon용 모델 캐시 및 서버 연동
- OpenClaw 연동:
llmfit-advisor스킬로 하드웨어에 맞는 모델 자동 추천/설정
모델 데이터베이스 관리
scripts/scrape_hf_models.py로 HuggingFace에서 모델 목록 자동 생성make update-models로 데이터 갱신 및 바이너리 재빌드- 모델 범주: 일반/코딩/추론/멀티모달/채팅/임베딩 등
data/gguf_sources_cache.json로 GGUF 소스 다운로드 경로를 7일 캐싱
설치/실행
- macOS/Linux
brew install llmfit- 또는
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
- Windows
cargo install llmfit
- 실행
- 기본:
llmfit로 TUI 실행 - 필요 시 GPU 감지 실패 대응:
--memory=로 VRAM 수동 지정
- 기본:
플랫폼 지원 및 라이선스
- Linux/macOS(Apple Silicon): 완전 지원
- Windows: RAM·CPU 감지 및 NVIDIA GPU(
nvidia-smi) 지원 - 라이선스: MIT
원본 본문 보기
- 수백 개의 LLM 모델과 제공자를 대상으로, 내 시스템 RAM·CPU·GPU에서 실제로 실행 가능한 모델을 한 번의 명령으로 찾아주는 도구
- 각 모델을 품질·속도·적합도·컨텍스트 기준으로 점수화해 실행 가능 여부를 표시하여, TUI(터미널 UI) 와 CLI 모드를 모두 지원
- 다중 GPU·MoE 구조·동적 양자화·속도 추정·로컬 런타임(Ollama, llama.cpp, MLX)과 통합
- 모델별로 실행 모드(GPU, CPU+GPU, CPU) 와 적합 수준(Perfect, Good, Marginal, Too Tight) 을 분석해 최적 조합을 제시
- 로컬 환경에서 LLM을 효율적으로 활용하려는 개발자에게 하드웨어 기반 모델 선택 자동화를 제공
주요 기능 개요
-
llmfit은 터미널 기반 도구로, 시스템의 하드웨어 사양을 감지해 LLM 모델이 실제로 실행 가능한지 평가
- RAM, CPU, GPU 정보를 읽어 모델별로 품질·속도·적합도·컨텍스트 점수를 계산
- 결과는 인터랙티브 TUI 또는 전통적인 CLI 형태로 표시
- 다중 GPU, Mixture-of-Experts(MoE), 동적 양자화 선택, 속도 추정, 로컬 런타임 통합 기능 지원
- 로컬 런타임으로 Ollama, llama.cpp, MLX를 지원하며, 설치된 모델 자동 감지 및 다운로드 가능
- Plan 모드를 통해 특정 모델에 필요한 최소·권장 하드웨어를 역으로 계산 가능
- macOS, Linux, Windows, Ascend 등 다양한 플랫폼에서 동작
설치 및 실행
- macOS/Linux에서는
brew install llmfit또는curl -fsSL https://llmfit.axjns.dev/install.sh | sh명령으로 설치 - Windows는
cargo install llmfit을 통해 설치 가능 - 실행 시
llmfit명령으로 TUI가 열리며, 시스템 사양과 모델 목록이 표시 - CLI 모드에서는
llmfit --cli,llmfit fit --perfect -n 5,llmfit recommend --json등 다양한 하위 명령 제공
작동 방식
-
하드웨어 감지:
sysinfo,nvidia-smi,rocm-smi,system_profiler등을 이용해 RAM·CPU·GPU 정보 수집 -
모델 데이터베이스: HuggingFace API에서 수백 개 모델을 가져와
data/hf_models.json에 저장- Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite 등 주요 모델 포함
- 동적 양자화: Q8_0~Q2_K 계층을 순회하며, 사용 가능한 메모리 내에서 최고 품질 양자화를 자동 선택
-
속도 추정: GPU 메모리 대역폭 기반 계산식
(bandwidth_GB_s / model_size_GB) × 0.55사용- 약 80종 GPU에 대한 대역폭 테이블 내장
- 적합도 분석: GPU·CPU+GPU·CPU 모드별로 실행 가능 여부와 메모리 여유도 평가
사용자 인터페이스
-
TUI 조작키:
-
f로 적합도 필터,a로 가용성 필터,s로 정렬 기준 변경 -
p로 Plan 모드 진입,d로 모델 다운로드,t로 테마 변경
-
- Plan 모드에서는 컨텍스트 길이, 양자화, 목표 토큰 속도 등을 수정하며 필요한 VRAM/RAM/CPU를 계산
- 테마: Default, Dracula, Solarized, Nord, Monokai, Gruvbox 등 6가지 내장 색상 테마 제공
런타임 및 통합 기능
-
Ollama 통합: 로컬 또는 원격 Ollama 인스턴스(
OLLAMA_HOST환경 변수)와 연결해 설치 모델 감지 및 다운로드 - llama.cpp 통합: HuggingFace GGUF 파일을 로컬 캐시에 다운로드하고 설치 여부 표시
- MLX 통합: Apple Silicon용 모델 캐시 및 서버 연동 지원
-
OpenClaw 연동:
llmfit-advisor스킬을 통해 OpenClaw 에이전트가 하드웨어에 맞는 모델을 자동 추천 및 설정
모델 데이터베이스 관리
-
scripts/scrape_hf_models.py스크립트로 HuggingFace API에서 모델 목록 자동 생성 -
make update-models명령으로 데이터 갱신 및 바이너리 재빌드 - 모델은 일반, 코딩, 추론, 멀티모달, 채팅, 임베딩 등 카테고리로 분류
- GGUF 소스 캐시(
data/gguf_sources_cache.json)를 통해 다운로드 경로를 7일간 캐싱
플랫폼 지원
- Linux/macOS(Apple Silicon): 완전 지원
-
Windows: RAM·CPU 감지 및 NVIDIA GPU(
nvidia-smi) 지원 -
GPU 감지 실패 시
--memory=옵션으로 VRAM 수동 지정 가능
라이선스
- MIT 라이선스