GeekNews

llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아 자동 최적화하는 터미널 도구 | GeekNews

요약

하드웨어 사양(RAM·CPU·GPU)에 맞는 LLM 모델을 자동으로 찾아 최적화해주는 터미널 도구입니다.

llmfit: 시스템 RAM·CPU·GPU를 감지해, 수백 개 LLM 모델 중 내 하드웨어에서 실제 실행 가능한 모델을 자동으로 찾아주는 터미널 도구
모델을 품질·속도·적합도·컨텍스트 기준으로 점수화하고, TUI(터미널 UI) 및 CLI 모드를 모두 지원
실행 모드별(예: GPU / CPU+GPU / CPU) 적합 수준을 Perfect / Good / Marginal / Too Tight로 제시

하드웨어 감지: sysinfo, nvidia-smi, rocm-smi, system_profiler 등으로 RAM·CPU·GPU 수집
모델 데이터베이스: HuggingFace API에서 모델 정보를 수집해 data/hf_models.json에 저장(주요 계열 포함)
동적 양자화: Q8_0~Q2_K 계층을 순회하며 가용 메모리 내 최적 품질 양자화 자동 선택
속도 추정: GPU 메모리 대역폭 기반 계산식으로 속도를 근사(대역폭 테이블 내장)
적합도 분석: GPU/CPU+GPU/CPU 모드별 실행 가능 여부와 메모리 여유도를 평가

TUI 조작키
- f: 적합도 필터
- a: 가용성 필터
- s: 정렬 기준 변경
- p: Plan 모드 진입
- d: 모델 다운로드
- t: 테마 변경
Plan 모드
- 컨텍스트 길이, 양자화, 목표 토큰 속도 등을 수정해 필요 VRAM/RAM/CPU를 계산
CLI 모드 예시(하위 명령)
- llmfit --cli
- llmfit fit --perfect -n 5
- llmfit recommend --json
내장 테마: Default, Dracula, Solarized, Nord, Monokai, Gruvbox

macOS/Linux
- brew install llmfit
- 또는 curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Windows
- cargo install llmfit
실행
- 기본: llmfit로 TUI 실행
- 필요 시 GPU 감지 실패 대응: --memory=로 VRAM 수동 지정

원본 본문 보기

(github.com/AlexsJones)

수백 개의 LLM 모델과 제공자를 대상으로, 내 시스템 RAM·CPU·GPU에서 실제로 실행 가능한 모델을 한 번의 명령으로 찾아주는 도구
각 모델을 품질·속도·적합도·컨텍스트 기준으로 점수화해 실행 가능 여부를 표시하여, TUI(터미널 UI) 와 CLI 모드를 모두 지원
다중 GPU·MoE 구조·동적 양자화·속도 추정·로컬 런타임(Ollama, llama.cpp, MLX)과 통합
모델별로 실행 모드(GPU, CPU+GPU, CPU) 와 적합 수준(Perfect, Good, Marginal, Too Tight) 을 분석해 최적 조합을 제시
로컬 환경에서 LLM을 효율적으로 활용하려는 개발자에게 하드웨어 기반 모델 선택 자동화를 제공

llmfit은 터미널 기반 도구로, 시스템의 하드웨어 사양을 감지해 LLM 모델이 실제로 실행 가능한지 평가
- RAM, CPU, GPU 정보를 읽어 모델별로 품질·속도·적합도·컨텍스트 점수를 계산
- 결과는 인터랙티브 TUI 또는 전통적인 CLI 형태로 표시
다중 GPU, Mixture-of-Experts(MoE), 동적 양자화 선택, 속도 추정, 로컬 런타임 통합 기능 지원
로컬 런타임으로 Ollama, llama.cpp, MLX를 지원하며, 설치된 모델 자동 감지 및 다운로드 가능
Plan 모드를 통해 특정 모델에 필요한 최소·권장 하드웨어를 역으로 계산 가능
macOS, Linux, Windows, Ascend 등 다양한 플랫폼에서 동작

macOS/Linux에서는 brew install llmfit 또는 curl -fsSL https://llmfit.axjns.dev/install.sh | sh 명령으로 설치
Windows는 cargo install llmfit을 통해 설치 가능
실행 시 llmfit 명령으로 TUI가 열리며, 시스템 사양과 모델 목록이 표시
CLI 모드에서는 llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json 등 다양한 하위 명령 제공

하드웨어 감지: sysinfo, nvidia-smi, rocm-smi, system_profiler 등을 이용해 RAM·CPU·GPU 정보 수집
모델 데이터베이스: HuggingFace API에서 수백 개 모델을 가져와 data/hf_models.json에 저장
- Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite 등 주요 모델 포함
동적 양자화: Q8_0~Q2_K 계층을 순회하며, 사용 가능한 메모리 내에서 최고 품질 양자화를 자동 선택
속도 추정: GPU 메모리 대역폭 기반 계산식 (bandwidth_GB_s / model_size_GB) × 0.55 사용
- 약 80종 GPU에 대한 대역폭 테이블 내장
적합도 분석: GPU·CPU+GPU·CPU 모드별로 실행 가능 여부와 메모리 여유도 평가

TUI 조작키:
- f로 적합도 필터, a로 가용성 필터, s로 정렬 기준 변경
- p로 Plan 모드 진입, d로 모델 다운로드, t로 테마 변경
Plan 모드에서는 컨텍스트 길이, 양자화, 목표 토큰 속도 등을 수정하며 필요한 VRAM/RAM/CPU를 계산
테마: Default, Dracula, Solarized, Nord, Monokai, Gruvbox 등 6가지 내장 색상 테마 제공