[AI 기초 다지기] Relation Networks & Relational Recurrent Neural Networks 논문 분석 및 코드 구현

머신러닝 & 딥러닝/딥러닝

[AI 기초 다지기] Relation Networks & Relational Recurrent Neural Networks 논문 분석 및 코드 구현

Haru_29 2024. 11. 15. 22:41

Relation Networks: 관계적 추론을 위한 혁신적 신경망 구조

1. 소개

1.1 배경

관계적 추론은 일반적인 지능의 핵심 요소이지만, 신경망이 이를 학습하기는 어려웠습니다. Relation Network(RN)는 이러한 문제를 해결하기 위한 새로운 접근법을 제시합니다.

1.2 주요 특징

class RelationNetwork:
    def __init__(self):
        self.key_features = {
            "plug_and_play": "기존 네트워크에 쉽게 통합",
            "simplicity": "간단한 구조로 강력한 성능",
            "versatility": "다양한 도메인에 적용 가능"
        }

2. RN 아키텍처

2.1 기본 구조

def RN(O):
    # O: 객체 집합 {o1, o2, ..., on}
    relations = []
    for i in range(len(O)):
        for j in range(len(O)):
            # 객체 쌍 관계 계산
            relation = g_theta(O[i], O[j])
            relations.append(relation)
    
    # 관계들의 집계
    return f_phi(sum(relations))

2.2 핵심 컴포넌트

관계 함수 g_theta
- 객체 쌍의 관계 계산
- MLP로 구현
집계 함수 f_phi
- 관계들의 통합
- MLP로 구현

3. 주요 응용 분야

3.1 CLEVR 시각적 질의응답

class CLEVRModel(nn.Module):
    def __init__(self):
        self.cnn = CNN()  # 이미지 처리
        self.lstm = LSTM()  # 질문 처리
        self.rn = RelationNetwork()
        
    def forward(self, image, question):
        # 이미지에서 객체 추출
        objects = self.cnn(image)
        # 질문 임베딩
        q_embedding = self.lstm(question)
        # 관계 추론
        return self.rn(objects, q_embedding)

성능:

전체 정확도: 95.5%
인간 성능 초월
특히 관계 추론이 필요한 문제에서 우수

3.2 bAbI 텍스트 기반 질의응답

20개 작업 중 18개 성공
기본 귀납 작업에서 우수한 성능
재난적 실패 없음

3.3 물리 시스템 추론

연결 추론: 93% 정확도
시스템 수 계산: 95% 정확도

4. 구현 상세

4.1 입력 처리

class InputProcessor:
    def process_image(self, image):
        """이미지를 객체 집합으로 변환"""
        features = self.cnn(image)
        objects = []
        for i in range(d):
            for j in range(d):
                # 특징 맵의 각 위치를 객체로 처리
                pos = torch.tensor([i/d, j/d])
                obj = torch.cat([features[i,j], pos])
                objects.append(obj)
        return objects

4.2 RN 모듈

class RelationNetwork(nn.Module):
    def __init__(self, input_size, hidden_size):
        super().__init__()
        self.g_theta = MLP(input_size, hidden_size)
        self.f_phi = MLP(hidden_size, output_size)
        
    def forward(self, objects, question=None):
        relations = []
        for i, obj1 in enumerate(objects):
            for j, obj2 in enumerate(objects):
                # 객체 쌍과 질문을 결합
                if question is not None:
                    pair = torch.cat([obj1, obj2, question])
                else:
                    pair = torch.cat([obj1, obj2])
                # 관계 계산
                relation = self.g_theta(pair)
                relations.append(relation)
                
        # 관계 집계
        return self.f_phi(torch.sum(torch.stack(relations), dim=0))

5. 실험 결과

5.1 CLEVR 성능 비교

모델	전체 정확도	비교 유형	수 비교
인간	92.6%	96.0%	86.7%
CNN+LSTM	52.3%	53.0%	50.2%
RN	95.5%	97.1%	90.1%

5.2 bAbI 결과

성공 기준: 95% 이상 정확도
18/20 태스크 성공
실패한 2개 태스크도 근소한 차이

6. 구현시 주의사항

6.1 주요 하이퍼파라미터

config = {
    "cnn_layers": 4,
    "cnn_kernels": 24,
    "lstm_units": 128,
    "embedding_dim": 32,
    "g_theta_layers": [256, 256, 256, 256],
    "f_phi_layers": [256, 256, 29]
}

6.2 최적화 설정

training_config = {
    "optimizer": "Adam",
    "learning_rate": 2.5e-4,
    "batch_size": 64,
    "dropout": 0.5
}

7. 결론

7.1 주요 성과

단순한 구조로 복잡한 관계적 추론 가능
다양한 도메인에서 최고 성능 달성
기존 네트워크와 쉽게 통합

7.2 한계점

객체 수에 따른 계산 복잡도 (O(n²))
메모리 사용량 증가
큰 데이터셋에서의 학습 시간

7.3 향후 연구 방향

효율성 개선
더 복잡한 관계 처리
응용 분야 확장

Relational Recurrent Neural Networks의 완벽한 이해

1. 소개 및 배경

1.1 연구의 동기

기존 메모리 기반 신경망의 한계:

limitations = {
    "관계적_추론": "메모리 간 상호작용 부족",
    "정보_통합": "분산된 정보의 효과적 결합 어려움",
    "장기_의존성": "시간적 관계 파악의 제한",
    "확장성": "메모리 크기에 따른 성능 저하"
}

1.2 핵심 혁신

class RMCInnovations:
    def __init__(self):
        self.key_features = {
            "메모리_상호작용": {
                "mechanism": "다중 헤드 주의 메커니즘",
                "benefits": [
                    "동적 정보 교환",
                    "선택적 정보 접근",
                    "병렬 처리 가능"
                ]
            },
            "관계적_추론": {
                "mechanism": "메모리 간 명시적 관계 학습",
                "benefits": [
                    "복잡한 패턴 인식",
                    "시간적 의존성 파악",
                    "추상적 관계 학습"
                ]
            },
            "유연한_구조": {
                "mechanism": "가변 크기 메모리 매트릭스",
                "benefits": [
                    "task별 최적화 가능",
                    "효율적 자원 활용",
                    "확장성 확보"
                ]
            }
        }

2. 이론적 기반

2.1 관계적 추론의 수학적 정의

def relational_reasoning(entities, relations):
    """
    entities: 개체들의 집합
    relations: 개체 간 관계를 정의하는 함수
    
    Returns:
        high_level_representation: 관계적 추론의 결과
    """
    # 1. 개체 간 가능한 모든 관계 계산
    pairwise_relations = []
    for e1 in entities:
        for e2 in entities:
            relation = relations(e1, e2)
            pairwise_relations.append(relation)
            
    # 2. 관계 정보 통합
    high_level_representation = aggregate(pairwise_relations)
    return high_level_representation

2.2 메모리 상호작용 메커니즘

class MemoryInteraction:
    def __init__(self, mem_size, head_size):
        self.memory = torch.zeros(mem_size, head_size)
        self.attention = MultiHeadAttention(head_size)
        
    def compute_interactions(self, memory_states):
        """
        memory_states: 현재 메모리 상태
        
        Returns:
            updated_states: 상호작용이 반영된 새로운 메모리 상태
        """
        # 1. 주의 가중치 계산
        attention_weights = self.attention(
            queries=memory_states,
            keys=memory_states,
            values=memory_states
        )
        
        # 2. 정보 통합
        updated_states = torch.bmm(
            attention_weights,
            memory_states
        )
        
        # 3. 잔차 연결 및 정규화
        updated_states = LayerNorm(
            memory_states + updated_states
        )
        
        return updated_states

3. RMC 아키텍처 상세

3.1 전체 아키텍처

class RelationalMemoryCore(nn.Module):
    def __init__(self, 
                 mem_slots, 
                 head_size, 
                 num_heads=4, 
                 num_blocks=1):
        super().__init__()
        
        self.mem_slots = mem_slots
        self.head_size = head_size
        self.num_heads = num_heads
        self.mem_size = head_size * num_heads
        
        # 메모리 초기화
        self.memory = nn.Parameter(
            torch.zeros(mem_slots, self.mem_size)
        )
        
        # 주요 컴포넌트
        self.attention = MultiHeadAttention(
            num_heads,
            head_size,
            dropout=0.1
        )
        
        self.mlp = MLP(
            self.mem_size,
            [self.mem_size * 4, self.mem_size]
        )
        
        # 게이팅 메커니즘
        self.memory_gate = MemoryGate(self.mem_size)
        
    def forward(self, inputs, memory=None):
        # 메모리 상태 초기화 또는 이전 상태 사용
        if memory is None:
            memory = self.memory
        
        # 1. 입력과 메모리 결합
        memory_plus_input = torch.cat(
            [memory, inputs.unsqueeze(1)], 
            dim=1
        )
        
        # 2. 멀티헤드 주의 연산
        attended_memory = self.attention(
            memory, memory_plus_input, memory_plus_input
        )
        
        # 3. 잔차 연결 및 정규화
        memory = LayerNorm(memory + attended_memory)
        
        # 4. MLP 처리
        memory = memory + self.mlp(memory)
        
        # 5. 게이팅 적용
        memory = self.memory_gate(memory)
        
        return memory

3.2 핵심 컴포넌트

3.2.1 멀티헤드 주의 메커니즘

class MultiHeadAttention(nn.Module):
    def __init__(self, num_heads, head_size, dropout=0.1):
        super().__init__()
        
        self.num_heads = num_heads
        self.head_size = head_size
        self.total_size = head_size * num_heads
        
        # Linear 투영을 위한 가중치
        self.query_proj = nn.Linear(
            self.total_size, 
            self.total_size
        )
        self.key_proj = nn.Linear(
            self.total_size, 
            self.total_size
        )
        self.value_proj = nn.Linear(
            self.total_size, 
            self.total_size
        )
        
        self.output_proj = nn.Linear(
            self.total_size,
            self.total_size
        )
        
        self.dropout = nn.Dropout(dropout)
        
    def split_heads(self, x):
        batch_size = x.size(0)
        x = x.view(
            batch_size, 
            -1, 
            self.num_heads, 
            self.head_size
        )
        return x.transpose(1, 2)
        
    def forward(self, queries, keys, values):
        # 1. Linear 투영
        Q = self.split_heads(self.query_proj(queries))
        K = self.split_heads(self.key_proj(keys))
        V = self.split_heads(self.value_proj(values))
        
        # 2. Scaled Dot-Product Attention
        scores = torch.matmul(Q, K.transpose(-2, -1))
        scores = scores / math.sqrt(self.head_size)
        weights = F.softmax(scores, dim=-1)
        weights = self.dropout(weights)
        
        # 3. 가중치 적용
        context = torch.matmul(weights, V)
        
        # 4. 헤드 결합
        context = context.transpose(1, 2).contiguous()
        context = context.view(
            context.size(0),
            -1,
            self.total_size
        )
        
        # 5. 출력 투영
        output = self.output_proj(context)
        return output

3.2.2 메모리 게이팅

class MemoryGate(nn.Module):
    def __init__(self, memory_size):
        super().__init__()
        
        self.forget_gate = nn.Linear(
            memory_size, 
            memory_size
        )
        self.input_gate = nn.Linear(
            memory_size,
            memory_size
        )
        
    def forward(self, memory, candidates):
        # 게이트 값 계산
        forget = torch.sigmoid(
            self.forget_gate(memory)
        )
        input = torch.sigmoid(
            self.input_gate(candidates)
        )
        
        # 게이팅 적용
        return forget * memory + input * candidates

4. 최적화 및 학습

4.1 학습 설정

training_config = {
    "optimizer": {
        "type": "Adam",
        "learning_rate": 1e-4,
        "beta1": 0.9,
        "beta2": 0.98,
        "epsilon": 1e-9
    },
    "batch_size": 64,
    "gradient_clipping": {
        "max_norm": 0.5,
        "norm_type": 2
    },
    "scheduler": {
        "type": "ReduceLROnPlateau",
        "patience": 5,
        "factor": 0.5
    }
}

4.2 학습 루프

def train_epoch(model, dataloader, optimizer, criterion):
    model.train()
    total_loss = 0
    
    for batch in dataloader:
        # 1. 포워드 패스
        outputs = model(batch.inputs)
        loss = criterion(outputs, batch.targets)
        
        # 2. 역전파
        optimizer.zero_grad()
        loss.backward()
        
        # 3. 그래디언트 클리핑
        torch.nn.utils.clip_grad_norm_(
            model.parameters(),
            max_norm=0.5
        )
        
        # 4. 파라미터 업데이트
        optimizer.step()
        
        total_loss += loss.item()
        
    return total_loss / len(dataloader)

5. 실험 및 결과

5.1 N-th Farthest 태스크

5.1.1 태스크 정의

class NthFarthestTask:
    def generate_data(self, num_samples, vec_dim=16):
        """
        학습/평가용 데이터 생성
        """
        data = []
        for _ in range(num_samples):
            # 랜덤 벡터 생성
            vectors = torch.randn(10, vec_dim)
            
            # 참조 벡터 및 N 선택
            ref_idx = random.randint(0, 9)
            n = random.randint(1, 9)
            
            # 거리 계산 및 정렬
            distances = torch.norm(
                vectors - vectors[ref_idx],
                dim=1
            )
            sorted_idx = torch.argsort(distances)
            
            data.append({
                'vectors': vectors,
                'ref_idx': ref_idx,
                'n': n,
                'target': sorted_idx[n]
            })
            
        return data

5.1.2 성능 비교

nth_farthest_results = {
    "16차원_벡터": {
        "RMC": {
            "정확도": 91%,
            "수렴_시간": "2시간",
            "메모리_사용": "4GB"
        },
        "LSTM": {
            "정확도": 30%,
            "수렴_시간": "3시간",
            "메모리_사용": "2GB"
        },
        "DNC": {
            "정확도": 28%,
            "수렴_시간": "4시간",
            "메모리_사용": "6GB"
        }
    },
    "32차원_벡터": {
        "RMC": {
            "정확도": 89%,
            "수렴_시간": "3시간",
            "메모리_사용": "6GB"
        }
    }
}

5.2 프로그램 평가

5.2.1 태스크 설명

program_eval_results = {
    "덧셈": {
        "RMC": 99.9%,
        "LSTM": 99.8%,
        "DNC": 99.4%,
        "분석": "모든 모델이 높은 성능 달성"
    },
    "제어": {
        "RMC": 99.6%,
        "LSTM": 97.4%,
        "DNC": 83.8%,
        "분석": "RMC가 복잡한 제어 흐름에서 우수한 성능 보임"
    },
    "전체_프로그램": {
        "RMC": 79.0%,
        "LSTM": 66.1%,
        "DNC": 69.5%,
        "분석": "가장 복잡한 태스크에서도 RMC 우수성 입증"
    }
}

5.3 언어 모델링

5.3.1 데이터셋 특성

language_modeling_datasets = {
    "WikiText-103": {
        "크기": "100M 토큰",
        "특징": "위키피디아 문서 기반",
        "난이도": "중간"
    },
    "Project Gutenberg": {
        "크기": "180M 토큰",
        "특징": "문학 작품 중심",
        "난이도": "어려움"
    },
    "GigaWord": {
        "크기": "4B 토큰",
        "특징": "뉴스 기사 중심",
        "난이도": "중간"
    }
}

5.3.2 성능 비교

language_modeling_results = {
    "WikiText-103": {
        "RMC": 31.6,  # perplexity
        "LSTM": 34.3,
        "Temporal CNN": 45.2,
        "개선율": "7.9%"
    },
    "Project Gutenberg": {
        "RMC": 42.0,
        "LSTM": 45.5,
        "개선율": "7.7%"
    },
    "GigaWord": {
        "RMC": 38.3,
        "LSTM": 43.7,
        "개선율": "12.4%"
    }
}

6. 구현 가이드

6.1 메모리 구성 최적화

def optimize_memory_config(task_type, input_size):
    """
    태스크 특성에 따른 최적 메모리 구성 추천
    """
    if task_type == "language_modeling":
        return {
            "mem_slots": 1,
            "head_size": 2048,
            "num_heads": 8,
            "reason": "큰 단일 메모리로 풍부한 문맥 정보 저장"
        }
    elif task_type == "relational_reasoning":
        return {
            "mem_slots": 8,
            "head_size": 512,
            "num_heads": 4,
            "reason": "다수의 메모리로 관계 정보 분산 저장"
        }
    else:  # 일반적인 경우
        return {
            "mem_slots": 4,
            "head_size": 1024,
            "num_heads": 4,
            "reason": "균형잡힌 구성"
        }

6.2 학습 최적화 기법

class TrainingOptimizer:
    def __init__(self):
        self.techniques = {
            "그래디언트_클리핑": {
                "max_norm": 0.5,
                "이유": "학습 안정성 확보"
            },
            "학습률_스케줄링": {
                "initial_lr": 1e-4,
                "warmup_steps": 4000,
                "이유": "초기 학습 안정화"
            },
            "드롭아웃": {
                "rate": 0.1,
                "적용위치": ["attention", "mlp"],
                "이유": "과적합 방지"
            },
            "레이어_정규화": {
                "위치": "각 서브층 이후",
                "이유": "학습 가속화"
            }
        }
        
    def apply_optimization(self, model, config):
        # 최적화 기법 적용 로직
        pass

7. 결론 및 향후 연구

7.1 주요 성과

관계적 추론 능력
- N-th Farthest 태스크에서 90% 이상의 정확도
- 기존 모델 대비 3배 이상 성능 향상
언어 모델링 성능
- 모든 데이터셋에서 SOTA 달성
- 특히 장문 문맥 이해에서 우수성 입증
프로그램 실행 능력
- 복잡한 제어 흐름 처리 가능
- 높은 일반화 성능

7.2 한계점

limitations = {
    "계산_복잡도": {
        "문제": "메모리 크기에 따른 이차 복잡도",
        "해결방안": "희소 주의 메커니즘 도입 고려"
    },
    "메모리_확장성": {
        "문제": "큰 메모리에서의 학습 불안정성",
        "해결방안": "계층적 메모리 구조 연구"
    },
    "해석가능성": {
        "문제": "복잡한 메모리 상호작용 이해 어려움",
        "해결방안": "주의 메커니즘 시각화 도구 개발"
    }
}

7.3 향후 연구 방향

효율성 개선
- 희소 주의 메커니즘 연구
- 메모리 접근 최적화
확장성 향상
- 계층적 메모리 구조
- 동적 메모리 할당
응용 분야 확대
- 다중 에이전트 시스템
- 복잡한 추론 태스크
- 실시간 의사결정 시스템

저작자표시

'머신러닝 & 딥러닝 > 딥러닝' 카테고리의 다른 글

[AI 기초 다지기] Kolmogorov Complexity and Algorithmic Randomness (0)	2024.11.17
[AI 기초 다지기] Transformer & The Annotated Transformer & Scaling Laws for Neural Language Models 논문 분석 및 코드 구현 (0)	2024.11.16
[AI 기초 다지기] Set2Set 논문 분석 및 코드 구현 (1)	2024.11.14
[AI 기초 다지기] RNNsearch & Pointer Networks 논문 분석 및 코드 구현 (1)	2024.11.13
[AI 기초 다지기] Neural Turing Machine & Deep Speech 2 논문 분석 및 코드 구현 (3)	2024.11.12

현재글[AI 기초 다지기] Relation Networks & Relational Recurrent Neural Networks 논문 분석 및 코드 구현

Haru's 개발 블로그

스탠포드, 샘 올트먼, 티스토리챌린지, 챗봇, torch.compile(), 프롬프트 엔지니어, linear classification, Image Classification, Diffusion, TCA, flux 모델 최적화, 경사 하강법, SwiftUI, 딥러닝, OpenAI, Objective-C, torchao, Neural Networks, 오블완, flux.1-dev,

Today :
Yesterday :

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30