요즘 LLM이 유행하면서 로컬 환경에서 소형 LLM인 sLLM을 실행하는 경우가 많은데, sLLM은 종류도 많을뿐더라, 코드를 직접 실행하고, 런타임을 최적화하기가 매우 어렵다.
이런 문제를 해결하기 위해서 sLLM을 손쉽게 실행할 수 있는 환경이 있는데, 가장 널리 사용되는 환경으로는 Ollama와 LMStudio가 있다.
Ollama는 아래와 같이 CLI환경에서 프롬프트를 입력할 수 있다.
또한, HTTP REST API를 제공하기 때문에 애플리케이션 개발에도 유용하게 사용할 수 있다.
개인적으로는 LMStudio를 좀 더 선호하는데, LMStudio는 아래와 같이 GUI 베이스로, 쳇봇 GUI를 지원하기 때문에 좀더 깔끔하게 사용할 수 있고, 히스토리 관리등이 가능하다.
맥북 PRO M1으로 실행했을때, LLama 7B, Gemma2 9B는 잘 돌아가는 편이지만, 응답시간이 다소 느리다. (개발하는데는 조금 에로 사항이 있을듯). 주변에 sLLM으로 개발하시는 분들은 주로 M4 Mini 나 Pro를 많이 사용하시는듯
'빅데이타 & 머신러닝 > 생성형 AI (ChatGPT etc)' 카테고리의 다른 글
LLM 파인튜닝 기법 LoRA에 대한 개념 이해 (1) | 2025.01.24 |
---|---|
생성형 AI로 코드 품질을 높이는 방법 (0) | 2025.01.04 |
2024년 LLM 애플리케이션 아키텍쳐 및 2025년 전망 (0) | 2025.01.04 |
RAG 성능 튜닝 - Embedding fine tuning (1) | 2024.12.25 |
Small to Big Chunking in RAG (0) | 2024.12.25 |