✦ 찜
← 상세로🔗 원본 열기

GeekNews

llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아 자동 최적화하는 터미널 도구 | GeekNews

요약

하드웨어 사양(RAM·CPU·GPU)에 맞는 LLM 모델을 자동으로 찾아 최적화해주는 터미널 도구입니다.

  • 모델 가용성 평가: RAM·CPU·GPU 정보로 실행 가능 여부를 판정
  • 점수화/정렬: 품질·속도·적합도·컨텍스트 기준으로 모델을 점수화
  • 로컬 런타임 통합: Ollama, llama.cpp, MLX와 연결해 설치·감지·다운로드
  • 동적 양자화/속도 추정: Q8_0~Q2_K 양자화 순회 및 GPU 대역폭 기반 속도 계산
  • Plan 모드: 목표에 필요한 최소/권장 하드웨어를 역산하고 조합을 제안

핵심 포인트

  • 하드웨어 기반 실행 가능 모델 추천
  • 품질/속도/적합도/컨텍스트 점수화
  • Ollama·llama.cpp·MLX 통합
  • 동적 양자화(Q8_0~Q2_K)
  • Plan 모드로 최소·권장 사양 역산

본문 정리

개요

  • llmfit: 시스템 RAM·CPU·GPU를 감지해, 수백 개 LLM 모델 중 내 하드웨어에서 실제 실행 가능한 모델을 자동으로 찾아주는 터미널 도구
  • 모델을 품질·속도·적합도·컨텍스트 기준으로 점수화하고, TUI(터미널 UI)CLI 모드를 모두 지원
  • 실행 모드별(예: GPU / CPU+GPU / CPU) 적합 수준을 Perfect / Good / Marginal / Too Tight로 제시

주요 기능

  • 하드웨어 감지: sysinfo, nvidia-smi, rocm-smi, system_profiler 등으로 RAM·CPU·GPU 수집
  • 모델 데이터베이스: HuggingFace API에서 모델 정보를 수집해 data/hf_models.json에 저장(주요 계열 포함)
  • 동적 양자화: Q8_0~Q2_K 계층을 순회하며 가용 메모리 내 최적 품질 양자화 자동 선택
  • 속도 추정: GPU 메모리 대역폭 기반 계산식으로 속도를 근사(대역폭 테이블 내장)
  • 적합도 분석: GPU/CPU+GPU/CPU 모드별 실행 가능 여부와 메모리 여유도를 평가

인터페이스(TUI/CLI)

  • TUI 조작키
    • f: 적합도 필터
    • a: 가용성 필터
    • s: 정렬 기준 변경
    • p: Plan 모드 진입
    • d: 모델 다운로드
    • t: 테마 변경
  • Plan 모드
    • 컨텍스트 길이, 양자화, 목표 토큰 속도 등을 수정해 필요 VRAM/RAM/CPU를 계산
  • CLI 모드 예시(하위 명령)
    • llmfit --cli
    • llmfit fit --perfect -n 5
    • llmfit recommend --json
  • 내장 테마: Default, Dracula, Solarized, Nord, Monokai, Gruvbox

로컬 런타임 통합

  • Ollama: 로컬/원격 인스턴스 연결(예: OLLAMA_HOST 환경 변수) 후 설치 모델 감지·다운로드
  • llama.cpp: HuggingFace GGUF 파일을 로컬 캐시에 다운로드하고 설치 여부 표시
  • MLX: Apple Silicon용 모델 캐시 및 서버 연동
  • OpenClaw 연동: llmfit-advisor 스킬로 하드웨어에 맞는 모델 자동 추천/설정

모델 데이터베이스 관리

  • scripts/scrape_hf_models.py로 HuggingFace에서 모델 목록 자동 생성
  • make update-models로 데이터 갱신 및 바이너리 재빌드
  • 모델 범주: 일반/코딩/추론/멀티모달/채팅/임베딩 등
  • data/gguf_sources_cache.json로 GGUF 소스 다운로드 경로를 7일 캐싱

설치/실행

  • macOS/Linux
    • brew install llmfit
    • 또는 curl -fsSL https://llmfit.axjns.dev/install.sh | sh
  • Windows
    • cargo install llmfit
  • 실행
    • 기본: llmfit로 TUI 실행
    • 필요 시 GPU 감지 실패 대응: --memory=로 VRAM 수동 지정

플랫폼 지원 및 라이선스

  • Linux/macOS(Apple Silicon): 완전 지원
  • Windows: RAM·CPU 감지 및 NVIDIA GPU(nvidia-smi) 지원
  • 라이선스: MIT
원본 본문 보기

(github.com/AlexsJones)

  • 수백 개의 LLM 모델과 제공자를 대상으로, 내 시스템 RAM·CPU·GPU에서 실제로 실행 가능한 모델을 한 번의 명령으로 찾아주는 도구
  • 각 모델을 품질·속도·적합도·컨텍스트 기준으로 점수화해 실행 가능 여부를 표시하여, TUI(터미널 UI)CLI 모드를 모두 지원
  • 다중 GPU·MoE 구조·동적 양자화·속도 추정·로컬 런타임(Ollama, llama.cpp, MLX)과 통합
  • 모델별로 실행 모드(GPU, CPU+GPU, CPU)적합 수준(Perfect, Good, Marginal, Too Tight) 을 분석해 최적 조합을 제시
  • 로컬 환경에서 LLM을 효율적으로 활용하려는 개발자에게 하드웨어 기반 모델 선택 자동화를 제공

주요 기능 개요

  • llmfit은 터미널 기반 도구로, 시스템의 하드웨어 사양을 감지해 LLM 모델이 실제로 실행 가능한지 평가
    • RAM, CPU, GPU 정보를 읽어 모델별로 품질·속도·적합도·컨텍스트 점수를 계산
    • 결과는 인터랙티브 TUI 또는 전통적인 CLI 형태로 표시
  • 다중 GPU, Mixture-of-Experts(MoE), 동적 양자화 선택, 속도 추정, 로컬 런타임 통합 기능 지원
  • 로컬 런타임으로 Ollama, llama.cpp, MLX를 지원하며, 설치된 모델 자동 감지 및 다운로드 가능
  • Plan 모드를 통해 특정 모델에 필요한 최소·권장 하드웨어를 역으로 계산 가능
  • macOS, Linux, Windows, Ascend 등 다양한 플랫폼에서 동작

설치 및 실행

  • macOS/Linux에서는 brew install llmfit 또는 curl -fsSL https://llmfit.axjns.dev/install.sh | sh 명령으로 설치
  • Windows는 cargo install llmfit을 통해 설치 가능
  • 실행 시 llmfit 명령으로 TUI가 열리며, 시스템 사양과 모델 목록이 표시
  • CLI 모드에서는 llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json 등 다양한 하위 명령 제공

작동 방식

  • 하드웨어 감지: sysinfo, nvidia-smi, rocm-smi, system_profiler 등을 이용해 RAM·CPU·GPU 정보 수집
  • 모델 데이터베이스: HuggingFace API에서 수백 개 모델을 가져와 data/hf_models.json에 저장
    • Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite 등 주요 모델 포함
  • 동적 양자화: Q8_0~Q2_K 계층을 순회하며, 사용 가능한 메모리 내에서 최고 품질 양자화를 자동 선택
  • 속도 추정: GPU 메모리 대역폭 기반 계산식 (bandwidth_GB_s / model_size_GB) × 0.55 사용
    • 약 80종 GPU에 대한 대역폭 테이블 내장
  • 적합도 분석: GPU·CPU+GPU·CPU 모드별로 실행 가능 여부와 메모리 여유도 평가

사용자 인터페이스

  • TUI 조작키:
    • f로 적합도 필터, a로 가용성 필터, s로 정렬 기준 변경
    • p로 Plan 모드 진입, d로 모델 다운로드, t로 테마 변경
  • Plan 모드에서는 컨텍스트 길이, 양자화, 목표 토큰 속도 등을 수정하며 필요한 VRAM/RAM/CPU를 계산
  • 테마: Default, Dracula, Solarized, Nord, Monokai, Gruvbox 등 6가지 내장 색상 테마 제공

런타임 및 통합 기능

  • Ollama 통합: 로컬 또는 원격 Ollama 인스턴스(OLLAMA_HOST 환경 변수)와 연결해 설치 모델 감지 및 다운로드
  • llama.cpp 통합: HuggingFace GGUF 파일을 로컬 캐시에 다운로드하고 설치 여부 표시
  • MLX 통합: Apple Silicon용 모델 캐시 및 서버 연동 지원
  • OpenClaw 연동: llmfit-advisor 스킬을 통해 OpenClaw 에이전트가 하드웨어에 맞는 모델을 자동 추천 및 설정

모델 데이터베이스 관리

  • scripts/scrape_hf_models.py 스크립트로 HuggingFace API에서 모델 목록 자동 생성
  • make update-models 명령으로 데이터 갱신 및 바이너리 재빌드
  • 모델은 일반, 코딩, 추론, 멀티모달, 채팅, 임베딩 등 카테고리로 분류
  • GGUF 소스 캐시(data/gguf_sources_cache.json)를 통해 다운로드 경로를 7일간 캐싱

플랫폼 지원

  • Linux/macOS(Apple Silicon): 완전 지원
  • Windows: RAM·CPU 감지 및 NVIDIA GPU(nvidia-smi) 지원
  • GPU 감지 실패 시 --memory= 옵션으로 VRAM 수동 지정 가능

라이선스

  • MIT 라이선스