본문 바로가기

Study23

PEFT에 대한 직관적 이해 1. 출발점: Fine-tuning을 더 싸게 할 수 없을까?LLM을 fine-tuning하면 모든 파라미터를 업데이트해야 한다. 10B 모델이라면 수십 GB의 가중치를 전부 학습하고 저장해야 하는데, 이건 너무 비싸다.여기서 나온 아이디어:"pre-trained 가중치 W₀에서 fine-tuned 가중치 W_θ' 로의 변화량 ΔW 만 따로 표현할 수 있지 않을까?" W_θ' = W₀ + ΔW이건 수학적으로 항등식이라 틀릴 수가 없다. 어떤 두 행렬이든 차이는 항상 존재하니까.2. 진짜 질문: ΔW가 low-rank일까?단순히 ΔW를 저장하는 건 W_θ'를 통째로 저장하는 것과 다를 바 없다. 의미가 있으려면: ΔW가 low-rank여야 한다즉 ΔW를 분해했을 때 실제로 중요한 성분이 소수에 집중되어야 .. 2026. 4. 16.

SVD와 Eckart-Young 정리: low-rank란? 1. 행렬 = 공간 변환행렬 M에 벡터 x를 곱한다는 건 공간을 변환하는 것이다:y = MxSVD는 이 변환이 사실 세 단계로 분해된다는 것을 보여준다.2. SVD 직관: 회전-늘리기-회전M = U Σ Vᵀx → Vᵀx → ΣVᵀx → UΣVᵀx [회전] [늘리기] [회전]1단계 Vᵀ: 입력 공간에서 회전 좌표계를 재정렬하는 것. 길이 변화 없음.2단계 Σ: 각 축방향으로 늘리기 Σ는 대각행렬인데, 대각 원소들이 전부 같을 필요가 없다:Σ = [100 0 0 ] [0 50 0 ] [0 0 0.1]각 σ값이 그 방향의 중요도다. σ가 크면 그 방향으로 공간을 많이 늘린다는 뜻이고, σ가 0에 가까우면 그 방향은 변환에 거의 영향을 주지 않는.. 2026. 4. 16.

Shell script 로그 남기기 time ./myscript.sh | tee -a log.txt 2021. 11. 17.

vscode로 arguments세팅 config 예시 { // Use IntelliSense to learn about possible attributes. // Hover to view descriptions of existing attributes. // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387 "version": "0.2.0", "configurations": [ { "name": "Python: train.py", "type": "python", "request": "launch", "program": "${workspaceFolder}/train.py", "args" : ["--base_config", "my_config.json", "--output",.. 2021. 11. 4.

이전 1 2 3 4 ··· 6 다음

티스토리툴바