분류 전체보기 1327

파이썬 - yield 키워드

yield 키워드 설명yield 키워드는 Python에서 제너레이터(Generator) 함수를 정의할 때 사용되는 특별한 키워드입니다. 제너레이터는 이터레이터(Iterator)의 한 종류로, 값을 한 번에 모두 메모리에 저장하는 대신, 필요할 때마다 하나씩 생성하여 반환합니다.1. 제너레이터 (Generator)이터레이터(Iterator): __iter__() 와 __next__() 메서드를 구현하여 값을 순차적으로 꺼낼 수 있는 객체입니다. 리스트, 튜플, 문자열 등이 이터레이터의 예입니다.제너레이터(Generator): yield 키워드를 사용하여 이터레이터를 간단하게 생성하는 방법입니다. 함수 내에서 yield를 만나면, 해당 값을 반환하고 함수의 실행을 일시 중지합니다. 다음에 다시 호출되면, 중..

파이썬 - pass 키워드

pass 문의 의미와 Python 프로그래밍에서의 사용 용도pass 문의 의미pass 문은 Python에서 아무런 동작도 하지 않는 문장입니다. 즉, 문법적으로는 문장이 필요하지만, 실제로 어떤 코드도 실행하고 싶지 않을 때 사용합니다. pass는 일종의 자리 표시자(placeholder) 역할을 합니다.Python 프로그래밍에서 pass 문의 사용 용도빈 클래스 또는 함수 정의:클래스나 함수의 골격만 먼저 작성하고, 나중에 내용을 채우고 싶을 때 pass를 사용하여 빈 블록을 만듭니다.이는 특히 코드를 설계하는 초기 단계나, 다른 사람과의 협업 시 인터페이스를 먼저 정의할 때 유용합니다.class MyClass: # 클래스 정의는 필요하지만 내용은 나중에 작성 passdef my_function..

파이썬 - 클래스 개념

파이썬 클래스 개념다른 언어와 마찬가지로 인스턴스 변수와 메소드가 있고, 클래스 변수와 메소드가 있다. class Circle: # 클래스 변수: 원주율 pi = 3.14159 def __init__(self, radius): # 인스턴스 변수: 반지름 self.radius = radius # 인스턴스 메서드: 원의 넓이 계산 def area(self): return Circle.pi * (self.radius ** 2) # 인스턴스 메서드: 원의 둘레 계산 def circumference(self): return 2 * Circle.pi * self.radius # 클래스 메서드: 원주율 변경 @class..

빅데이터 분석을 위한 메달리온 아키텍처

빅데이터 분석을 위한 메달리온 아키텍처조대협 (http://bcho.tistory.com) 메달리온 아키텍처는 데이터를 품질에 따라서 계층별로 나눠서 저장하는 데이터 분석 아키텍처이다. Databricks에서 데이터 엔지니어링과 분석 워크플로우를 단순화하기 위해서 소개된 개념으로 데이터 레이크 기반 시스템에서 데이터의 품질과 정제 수준을 체계적으로 관리하기 위해서 등장했다. 데이타를 품질에 따라서, 올림픽 메달처럼 Bronze ⇒ Silver ⇒ Gold 등급으로 나눠서 저장한다. 특히 데이터 레이크 (하둡과 같은 파일 시스템 기반)과 데이터 웨어하우스(빅쿼리,오라클,스노우플레이크와 같은 SQL 기반)을 통합하여, 데이터 정제 단계를 계층화 하였다.  이해를 돕기 위해서 아래 그림을 보자. 먼저 데이터 ..

빅데이터 분석을 위한 ELT 플랫폼 BQ Workflow vs Dataform

빅데이터 분석을 위한 ELT 플랫폼 BQ Workflow vs Dataform조대협 (http://bcho.tistory.com) 빅데이터 분석에 시스템에서 데이터 분석에 앞서서, 데이터 수집 (Ingestion),데이터 변환(Transformation) 과정이 있고, 이 과정은 여러개의 스텝으로 구성이 된다. 그래서 이런 스탭들을 관리하기 위해서 오케스트레이션 솔루션이 사용되는데, 오픈소스로 가장 많이 사용되는 솔루션 중의 하나는 Apache Airflow이다. Airflow는 재처리 로직, 병렬처리, 외부 컴포넌트 호출등 많은 기능을 폭넓게 지원하지만 문제는 그만큼 복잡도가 높다는 문제이다. (Airflow에 대한 설명 : https://bcho.tistory.com/1184 )현재의 빅데이터 분석은..

Nest.JS 살펴보기 - 2. Hello World

Nest.JS 살펴보기 - 2. Hello World조대협 (http://bcho.tistory.com)1. 프로젝트 생성:터미널을 열고 다음 명령어를 실행하여 hello-world라는 이름의 Nest.js 프로젝트를 생성한다.nest new hello-world프로젝트 생성 과정에서 패키지 매니저를 선택하라는 메시지가 나타나면 npm을 선택한다. 프로젝트 생성이 완료되면 hello-world 디렉토리로 이동한다. cd hello-world2. 주요 파일 설명:생성된 프로젝트에는 다음과 같은 주요 파일들이 있다.src/app.controller.ts: 애플리케이션의 컨트롤러를 정의하는 파일이다. 컨트롤러는 클라이언트로부터 들어오는 요청을 처리하고, 그에 대한 응답을 반환하는 역할을 수행한다. 라우팅 로직..

Nest.js 살펴보기 #1 - 환경 구성

Nest.js 살펴보기 #1 - 환경 구성조대협 (http://bcho.tistory.com) Nest.js 를 사용하기 위해서 먼저 환경을 구성해보자 Node.js 설치가장 먼저 Node.js를 설치해야 한다. Node.js는 Nest.js 애플리케이션을 실행하는 데 필요한 런타임 환경을 제공한다. Node.js 공식 웹사이트(https://nodejs.org/)에서 운영체제에 맞는 설치 파일을 다운로드 받을 수 있다. LTS(Long Term Support) 버전을 다운로드하는 것을 권장한다. 다운로드한 설치 파일을 실행하여 Node.js를 설치한다. 설치 과정에서 npm(Node Package Manager)도 함께 설치되는데, npm은 Node.js 패키지를 관리하는 도구이다.설치가 완료되면 터미..

LLM 파인튜닝 기법 LoRA에 대한 개념 이해

LoRA 파인튜닝 개념의 이해조대협 (http://bcho.tistory.com) LLM 모델에 대한 Fine tuning시에, 가장 기본적인 방법은 모델을 학습데이터로 새롭게 처음부터 학습하는 방법인데, 이 방법은 (GPU)비용이 너무 많이 들고 시간도 많이 걸린다. 그래서 대안으로 등장한것이 PEFT (Parameter-Efficient Fine-Tuning) 이라는 개념으로 , 원본 모델의 패러미터(Weight)값은 고정 시키고 작은 수의 파라미터만 훈련하거나 작은 모듈을 추가하여 학습 하는 방법으로, 과적합 (Overfitting)을 방지하고 연산량을 줄이 는 방식이다. AdapterPEFT 방법으로는 오늘 살펴볼 LoRA나 Adapter 등의 방식이 있다.Adapter 방식은 기존 모델 아키텍처..

로컬에서 LLM 모델을 실행하기 위한 Ollama, LMStudio

요즘 LLM이 유행하면서 로컬 환경에서 소형 LLM인 sLLM을 실행하는 경우가 많은데, sLLM은 종류도 많을뿐더라, 코드를 직접 실행하고, 런타임을 최적화하기가 매우 어렵다.이런 문제를 해결하기 위해서 sLLM을 손쉽게 실행할 수 있는 환경이 있는데, 가장 널리 사용되는 환경으로는 Ollama와 LMStudio가 있다.  Ollama는 아래와 같이 CLI환경에서 프롬프트를 입력할 수 있다. 또한, HTTP REST API를 제공하기 때문에 애플리케이션 개발에도 유용하게 사용할 수 있다.  개인적으로는 LMStudio를 좀 더 선호하는데, LMStudio는 아래와 같이 GUI 베이스로, 쳇봇 GUI를 지원하기 때문에 좀더 깔끔하게 사용할 수 있고, 히스토리 관리등이 가능하다.  맥북 PRO M1으로 실..

벡터 임베딩에서 단어간의 유사도를 판단하는 원리

조대협 (http://bcho.tistory.com) 자연어 처리(NLP)의 핵심 기술 중 하나인 단어 임베딩(Word Embedding), 그 중에서도 단어 간 유사도를 어떻게 파악하는지 그 원리를 깊이 있게 파헤쳐 보려고 한다.혹시 컴퓨터가 어떻게 단어의 의미를 이해하고, "고양이"와 "강아지"가 유사한 단어라는 것을 알아차리는지 궁금한 적 없는가? 그 비밀은 바로 단어 임베딩에 있다! 핵심 원리: "비슷한 동네에 사는 단어는 비슷한 친구다!"단어 임베딩의 핵심 아이디어는 아주 직관적이다. 바로 **"유사한 맥락에서 등장하는 단어는 유사한 의미를 가진다"**는 분포 가설(Distributional Hypothesis) 에 기반을 두고 있다. 쉽게 말해, 비슷한 문맥에서 자주 함께 등장하는 단어들은 의..