본문 바로가기

💻 개발자/🤖 Data Structure

[자료구조] Graph 기초

반응형

컴퓨터 공학에서 이야기하는 자료구조 그래프는 일반 그래프와 전혀 다른 모습을 가지고 있다. 자료구조의 그래프는 마치 거미줄처럼 여러 개의 점들이 선으로 이어져 있는 복잡한 네트워크 망과 같은 모습을 가지고 있다.

출처: CODESTATES

그래프는 여러 개의 점들이 서로 복잡하게 연결되어 있는 관계를 표현한 자료구조이다. 직접적인 관계가 있는 경우 두 점 사이를 이어주는 선이 있고 간접적인 관계라면 몇 개의 점과 선에 걸쳐 이어진다. 하나의 점을 그래프에서는 정점(vertex)이라고 표현하고, 하나의 선은 간선(edge)라고 한다. 다음 그림은 간단한 그래프를 나타낸 것이다.

출처: CODESTATES

그래프 실사용 예제

포털 사이트의 검색 엔진, SNS에서 사람들과의 관계, 네비게이션 (길 찾기) 등에서 사용하는 자료구조가 바로 그래프이다. 세 가지 모두 수많은 정점을 가지고 있고, 서로 관계가 있는 정점은 간선으로 이어져 있다. 그중 네비게이션 시스템이 어떤 방식으로 자료구조 그래프를 사용하는지 살펴보자.

서울에 사는 A, 부산에 사는 B, 대전에 사는 C가 있다.  A의 결혼식에 참석하기 위해 B가 대전에서 C를 태워서 서울까지 갈 예정이다.

 

위의 예제에서 3개의 정점이 존재한다. A, B, C가 사는 각각의 도시(서울, 부산, 대전)를 그래프의 정점으로 삼을 수 있고 이 3개의 정점은 서로 이어지는 간선(관계)을 가지고 있다.

  • 정점: 서울, 부산, 대전
  • 간선: 서울 - 대전, 대전 - 부산, 부산 - 서울

이처럼 서울, 부산, 대전 사이에 간선이 존재하는데, 이 간선은 네비게이션에서 이동할 수 있음을 나타낸다. 정점에 필리핀 세부를 추가한다면 한국에서 차량으로 이동할 수 없기 때문에 어떠한 간선도 추가할 수 없다. 그래프에선 이런 경우를 관계가 없다 라고 표현한다.

 

예제로 돌아가서, 간선을 살펴보면 서울 부산 대전이 서로 관계가 있다는 것은 알 수 있지만, 각 도시가 얼마나 떨어져 있는지는 알 수 없다. 간선은 특정 도시 두 개가 이어져 있다는 사실만 알려줄 뿐, 그 외의 정보는 포함하지 않고 있다. 이렇게 추가적인 정보를 파악할 수 없는 그래프, 가중치(연결의 강도가 얼마나 되는지)가 안 적혀 있는 그래프를 비가중치 그래프 라고 한다. 간단한 JS 객체를 이용하여 비유한다면 다음과 같다.

 

let isConnected = {
    seoul: {
	busan: true,
	daejeon: true
	},
    busan: {
    	seoul: true,
        daejeon: true
	},
    daejeon: {
	seoul: true,
        busan: true
	}
}

console.log(isConnected.busan.seoul)  //  true
console.log(isConnected.daejeon.seoul)  //  true

 

비가중치 그래프는 각 정점 간의 연결 유무만을 판단하는 반면, 가중치 그래프는 더 자세한 정보를 담을 수 있다. 위의 비가중치 그래프를 가중치 그래프로 바꾸고, 각 도시 간의 거리를 표시해보자.

  • 정점: 서울, 부산, 대전
  • 간선: 서울 - 140km - 대전 , 대전 - 200km - 부산 , 부산 - 325km - 서울

이렇게 간선에 연결정도(거리 등)를 표현한 그래프를 가중치 그래프라고 한다. 수백만 개의 정점(주소)과 간선이 추가되어야 비로소 네비게이션에서 쓰는 자료구조와 유사해진다.

알아둬야 할 그래프 용어들

  • 무(방)향 그래프(undirected graph): 앞서 보았던 네비게이션 예제는 무(방)향 그래프이다. 서울에서 부산으로 갈 수 있듯, 부산에서 서울로 가는 것도 가능하다. 하지만 단방향(directed) 그래프로 구현된다면 서울에서 부산으로(혹은 그 반대로) 일방통행만 가능할 것이다.
  • 진입 차수(in-degree) / 진출 차수(out-degree): 한 정점에 진입하고 진출하는 간선이 몇 개인지를 나타낸다.
  • 인접(adjacency): 두 정점 간에 간선이 직접 이어져 있다면 이 두 정점은 인접한 정점이다.
  • 자기 루프(self loop): 정점에서 진출하는 간선이 곧바로 자기 자신에게 진입하는 경우 자기 루프를 가졌다 라고 표현한다. 다른 정점을 거치지 않는다는 것이 특징이다.
  • 사이클(cycle): 한 정점에서 출발하여 다시 해당 정점으로 돌아갈 수 있다면 사이클이 있다고 표현한다. 네비게이션 그래프는 서울 -> 대전 -> 부산 -> 서울 로 이동이 가능하므로, 사이클이 존재하는 그래프이다.

그래프의 표현 방식: 인접 행렬 & 인접 리스트

- 인접 행렬

 

두 정점을 바로 이어 주는 간선이 있다면 이 두 정점은 인접하다고 이야기할 수 있다. 인접 행렬은 서로 다른 정점들이 인접한 상태인지를 표시한 행렬로 2차원 배열의 형태로 나타낸다. 만약 A라는 정점과 B라는 정점이 이어져 있다면 1(true), 이어져 있지 않다면 0(false)으로 표시한 일종의 표이다. 만약 가중치 그래프라면 1 대신 관계에서 의미 있는 값을 저장한다. 위의 네비게이션 예제라면, 거리를 입력하면 좋을 것이다.

from                                   to A B C
A 0 0 1
B 1 0 1
C 1 0 0

 

  • A의 진출 차수는 1개 이다: A -> C
  • B의 진출 차수는 2개 이다: B -> A , B -> C
  • C의 진출 차수는 1개 이다: C -> A

인접 행렬의 장점과 사용되는 예

  • 한 개의 표와 같은 모습을 한 인접 행렬은 두 정점 사이에 관계가 있는지 없는지 확인하기에 용이하다.
  • 가장 빠른 경로(Shortest path)를 찾고자 할 때 주로 사용된다.

- 인접 리스트

 

인접 리스트는 각 정점이 어떤 정점과 인접한 지를 리스트의 형태로 표현한다. 각 정점마다 하나의 리스트를 가지고 있으며, 이 리스트는 자신과 인접한 다른 정점을 담고 있다. 위의 그래프를 인접 리스트로 표현하면 다음 그림과 같다.

출처: CODESTATES

B 정점에 이어진 A, C 간선의 순서는 보통 중요하지 않다. 그래프, 트리, 스택, 큐 등 모든 자료 구조는 구현하는 사람의 편의와 목적에 따라 기능을 추가 / 삭제할 수 있다. 그래프를 인접 리스트로 구현할 때, 정점별로 살펴봐야 할 우선순위를 고려해 구현할 수 있다. 이때, 리스트에 담겨진 정점들을 우선 순위별로 정렬할 수 있다. 우선 순위가 없다면, 연결된 정점들을 단순하게 나열한 리스트가 된다.

 

  • 우선 순위를 다뤄야 한다면 더 적합한 자료구조(ex. queue, heap)를 사용하는 것이 합리적이다. 따라서 보통은 중요하지 않다.

인접 리스트 사용되는 예

  • 메모리를 효율적으로 사용하고 싶을 때 인접 리스트를 사용한다.
  • 인접 행렬은 연결 가능한 모든 경우의 수를 저장하기 때문에 상대적으로 메모리를 많이 차지한다.
반응형