기초 지식
탐색이란 많은 양의 데이터 중에서 원하는 데이터를 찾는 과정이다.
대표적인 탐색 알고리즘에는 DFS와 BFS가 있다. 두 알고리즘의 원리에는 스택, 큐와 같은 기본 자료구조 그리고 재귀 함수가 사용되기 때문에 이에 대한 이해가 전제되어야 한다. 이때 자료구조는 데이터를 표현하고 관리하고 처리하기 위한 구조를 의미한다.
스택
스택(Stack)은 박스 쌓기와 유사한 구조로, 후입선출(LIFO) 이다.
파이썬에서 스택을 이용할 때엔 기본 리스트의 메서드를 이용하면 된다.
✓ append() : 리스트의 가장 뒤쪽에 데이터 삽입
✓ pop() : 리스트의 가장 뒤쪽에서 데이터 꺼냄
stack = []
stack.append(1) # [1]
stack.append(2) # [1, 2]
stack.append(3) # [1, 2, 3]
stack.pop() # 3 return -> [1, 2]
print(stack) # [1, 2]
print(stack[::-1]) # [2, 1]
큐
큐(Queue)는 대기 줄과 유사한 구조로, 선입선출(FIFO)이다.
파이썬에서 큐를 구현할 때엔 collections 모듈의 deque 자료구조를 활용한다. deque는 스택과 큐의 장점을 모두 채택하여, 데이터를 넣고 빼는 속도가 리스트 자료형에 비해 효율적이며 queue 라이브러리를 이용하는 것보다 더 간단하다. deque 객체를 리스트 자료형으로 변경하려면 list() 메서드를 이용하면 된다.
✓ append() : deque의 가장 뒤쪽에 데이터 삽입
✓ popleft() : deque의 가장 앞쪽에서 데이터 꺼냄
from collections import deque
queue = deque()
queue.append(1) # deque([1])
queue.append(2) # deque([1, 2])
queue.append(3) # deque([1, 2, 3])
queue.append(4) # deque([1, 2, 3, 4]
queue.popleft # return 1 -> deque([2, 3, 4])
print(queue) # deque([2, 3, 4])
queue.reverse()
print(queue) # deque([4, 3, 2])
print(list(queue)) # [4, 3, 2]
재귀 함수
재귀 함수(Recursion Function)란 자기 자신을 다시 호출하는 함수이다.
재귀 함수를 사용할 때엔 무한 호출이 발생하지 않도록 종료 조건을 꼭 명시해야 한다.
재귀 함수는 내부적으로 스택 자료구조와 동일하다!
컴퓨터 내부에서 재귀 함수의 수행은 스택 자료구조를 이용하는데, 함수를 계속 호출했을 때 가장 마지막에 호출한 함수가 먼저 수행을 끝내야 그 앞의 함 수 호출이 종료되기 때문이다. 따라서 스택 자료구조를 활용해야 하는 상당수 알고리즘은 재귀 함수를 이용해서 간편하게 구현될 수 있으며, DFS가 대표적 인 예이다.
재귀 함수를 이용하는 대표적인 예제로는 '팩토리얼 문제'가 있다. n! = 1 x 2 x ... x (n-1) x n 을 구할 때, 수학적으로 0!과 1!의 값은 1로 동일하다는 성질을 이용하여 n이 1 이하가 되었을 때 함수를 종료하는 재귀 함수의 형태로 구현할 수 있다. 이때 재귀적(recursive)으로 구현하는 것과 대비되는 개념으로 반복적(iterative)으로 구현하는 방식이 있는데, 이는 반복문을 사용한다는 의미이다.
# 1. 반복적으로 구현한 방식
def factorial_iterative(n):
result = 1
for i in range(1, n+1):
result *= i
return result
# 2. 재귀적으로 구현한 방식
def factorial_recursive(n):
if n <= 1:
return 1
return n * factorial_recursive(n-1) # n! = n * (n-1)!과 동일한 의미
두 함수의 기능은 팩토리얼로 동일하지만, 재귀적으로 구현한 방식이 반복문 사용보다 코드가 더 간결한 것을 볼 수 있다. 이는 수학의 점화식(재귀식)을 그대로 코드에 옮겼기 때문이다.
그래프
그래프의 기본 구조는 노드(node)와 간선(edge)으로 표현된다. 그래프 탐색이란 하나의 노드를 시작으로 다수의 노드를 방문하는 것을 말하며, 두 노드가 간선으로 연결되어 있다면 '두 노드는 인접하다'라고 표현한다.
프로그래밍에서 그래프는 크게 2가지 방식으로 표현할 수 있다.
1) 인접 행렬 방식(Adjacency Matrix)
2차원 배열로 그래프의 연결 관계를 표현하는 방식으로, 2차원 배열에 각 노드가 연결된 형태를 기록한다. 연결이 되어 있지 않은 노드끼리는 무한의 비용이라고 작성한다. 파이썬에서는 2차원 리스트로 구현할 수 있다.
INF = 999999999
graph = [
[0, 7, 5],
[7, 0, INF],
[5, INF, 0]
]
2) 인접 리스트 방식(Adjacency List)
리스트로 그래프의 연결 관계를 표현하는 방식으로, 모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장한다.
인접 리스트는 연결 리스트라는 자료구조를 이용해 구현하는데, 파이썬은 기본 자료형인 리스트 자료형이 append()를 통해 배열과 연결 리스트의 기능을 모두 기본으로 제공한다. 때문에 파이썬으로 인접 리스트를 이용해 그래프를 표현하고자 할 때엔 2차원 리스트를 이용하면 된다.
graph = [[] for _ in range(3)]
# 노드 0에 연결된 노드 정보 저장(노드, 거리)
graph[0].append((1, 7))
graph[0].append((2, 5))
# 노드 1
graph[1].append((0, 7))
# 노드 2
graph[2].append((0, 5))
메모리 측면에서 보자면 인접 행렬 방식은 모든 관계를 저장하므로 노드 개수가 많을수록 메모리가 불필요하게 낭비된다. 반면에 인접 리스트 방식은 연결된 정보만을 저장하기 때문에 메모리를 효율적으로 사용한다. 하지만 이 때문에 인접 리스트 방식은 인접 행렬 방식에 비해 특정 두 노드가 연결되어 있는지에 대한 정보를 얻는 속도가 느리다. 인접 리스트 방식에서는 연결된 데이터를 하나씩 확인해야하기 때문이다.
예를 들어 노드 1과 노드 7이 연결되어 있는지 확인할 때, 인접 행렬 방식에서는 graph[1][7]을 확인하면 된다. 반면 인접 리스트 방식에서는 노드 1에 대한 인접 리스트를 앞에서부터 차례대로 확인해야 한다. 그러므로 특정한 노드와 연결된 모든 인접 노드를 순회해야 하는 경우, 인접 리스트 방식이 인접 행렬 방식에 비해 메모리 공간의 낭비가 적다.
이론 - DFS
DFS(Depth-First Search)는 깊이 우선 탐색으로 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘이다.
DFS는 특정한 경로로 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후, 다시 돌아가 다른 경로로 탐색하는 식으로 동작한다. DFS는 스택 자료구조를 이용하며 구체적인 동작 과정은 다음과 같다.
1. 탐색 시작 노드를 스택에 삽입하고 방문 처리를 한다.
2. 스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문 처리를 한다. 방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼낸다.
3. 2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.
방문 처리는 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미한다. 방문 처리를 함으로써 각 노드를 한 번씩만 처리할 수 있다. 또한 일반적으로 인접한 노드 중 방문하지 않은 노드가 여러 개 있으면 번호가 낮은 순부터 처리한다.
[Step 1] 시작 노드인 '1'을 스택에 삽입하고 방문처리를 한다.
[Step 2] 스택의 최상단 노드인 '1'에 방문하지 않은 인접 노드 '2','3','8'이 있다. 이 중에서 가장 작은 노드인 '2'를 스택에 넣고 방문 처리를 한다.
[Step 3] 스택의 최상단 노드인 '2'에 방문하지 않은 인접 노드 '7'이 있다. 따라서 '7'번 노드를 스택에 넣고 방문 처리를 한다.
[Step 4] 스택의 최상단 노드인 '7'에 방문하지 않은 인접 노드 '6','8'이 있다. 이 중에서 가장 작은 노드인 '6'을 스택에 넣고 방문 처리를 한다.
[Step 5] 스택의 최상단 노드인 '6'에 방문하지 않은 인접 노드가 없다. 따라서 스택에서 '6'번 노드를 꺼낸다.
[Step 6] 스택의 최상단 노드인 '7'에 방문하지 않은 인접 노드 '8'이 있다. 따라서 '8'번 노드를 스택에 넣고 방문 처리를 한다.
이러한 과정을 반복하였을 때 전체 노드의 탐색 순서(스택에 들어간 순서)는 다음과 같다.
탐색 순서: 1 → 2 → 7 → 6 → 8 → 3 → 4 → 5
DFS 소스코드
DFS는 스택 자료구조에 기초하기 때문에 실제 구현 시 재귀 함수를 이용하면 간결하게 구현할 수 있으며, 데이터의 개수가 N개인 경우 O(N)의 시간이 소요된다.
# DFS 메서드 정의
def dfs(graph, v, visited):
# 현재 노드를 방문 처리
visited[v] = True
print(v, end=' ')
# 현재 노드와 연결된 다른 노드를 재귀적으로 방문
for i in graph[v]:
if not visited[i]:
dfs(graph, i, visited)
# 인접 리스트 방식으로 그래프 표현
# 각 노드가 연결된 정보를 표현(2차원 리스트)
graph = [
[],
[2,3,8],
[1,7],
[1,4,5],
[3,5],
[3,4],
[7],
[2,6,8],
[1,7]
]
# 각 노드가 방문된 정보를 표현(1차원 리스트)
# 기본적으로 모든 값들을 False로 초기화하고, index 0은 사용하지 않는다.
visited = [False]*9
# 정의된 DFS 함수 호출
dfs(graph,1,visited)
이론 - BFS
BFS(Breadth-First Search)는 너비 우선 탐색으로 가까운 노드부터 탐색하는 알고리즘이다.
DFS는 최대한 멀리 있는 노드를 우선적으로 탐색했으나, BFS는 그 반대이다. BFS 구현에는 큐를 사용하는데, 인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 자연스럽게 먼저 들어온 것이 먼저 나가게 되어, 가까운 노드부터 탐색을 진행하게 된다.
1. 탐색 시작 노드를 큐에 삽입하고 방문 처리를 한다.
2. 큐에서 노드를 꺼낸 뒤에 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리한다.
3. 2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.
[Step 1] 시작 노드인 '1'을 큐에 삽입하고 방문 처리를 한다.
[Step 2] 큐에서 노드 '1'을 꺼내 방문하지 않은 인접노드 '2','3','8'을 큐에 삽입하고 방문 처리한다.
[Step 3] 큐에서 노드 '2'를 꺼내 방문하지 않은 인접 노드 '7'을 큐에 삽입하고 방문 처리한다.
[Step 4] 큐에서 노드 '3'을 꺼내 방문하지 않은 인접 노드 '4','5'를 큐에 삽입하고 방문 처리한다.
[Step 5] 큐에서 노드 '8'을 꺼내고 방문하지 않은 인접 노드가 없으므로 무시한다.
이러한 과정을 반복하여 전체 노드의 탐색 순서(큐에 들어간 순서)는 다음과 같다.
탐색 순서: 1 → 2 → 3 → 8 → 7 → 4 → 5 → 6
BFS 소스코드
BFS는 큐 자료구조에 기초하기 때문에 구현이 간단하다. deque 라이브러리를 사용하는 것이 좋으면, 탐색에 O(N)의 시간이 소요되나 일반적인 경우 실제 수행 시간은 DFS보다 좋은 편이다.
from collections import deque
# BFS 메서드 정의
def bfs(graph, start, visited):
# 큐(Queue) 구현을 위해 deque 라이브러리 사용
queue = deque([start])
# 현재 노드를 방문 처리
visited[start] = True
# 큐가 빌 때까지 반복
while queue:
# 큐에서 하나의 원소를 뽑아 출력하기
v = queue.popleft()
print(v, end=' ')
# 아직 방문하지 않은 인접한 원소들을 큐에 삽입
for i in graph[v]:
if not visited[i]:
queue.append(i)
visited[i] = True
# 각 노드가 연결된 정보를 표현(2차원 리스트)
graph = [
[],
[2,3,8],
[1,7],
[1,4,5],
[3,5],
[3,4],
[7],
[2,6,8],
[1,7]
]
# 각 노드가 방문된 정보를 표현 (1차원 리스트)
visited = [False]*9
# 정의된 BFS 함수 호출
bfs(graph, 1, visited)
실전문제 3. 음료수 얼려 먹기
def dfs(x, y):
if x<=-1 or x>=n or y<=-1 or y>=m:
return False
# 현재 노드를 방문하지 않은 경우
if graph[x][y] == 0:
graph[x][y] = 1 # 방문 처리
dfs(x-1, y)
dfs(x, y-1)
dfs(x+1, y)
dfs(x, y+1)
return True
return False
n,m = map(int, input().split())
graph = []
for i in range(n):
graph.append(list(map(int, input())))
result = 0
for i in range(n):
for j in range(m):
if dfs(i,j) == True:
result += 1
print(result)
실전문제 4. 미로 탈출
# BFS 소스코드 구현
def bfs(x,y):
# 큐(Queue) 구현을 위해 deque 라이브러리 사용
queue = deque()
queue.append((x,y))
# 큐가 빌 때까지 반복하기
while queue:
x,y =queue.popleft()
# 현재 위치에서 4가지 방향으로의 위치 확인
for i in range(4):
nx = x+dx[i]
ny = y+dy[i]
# 미로 찾기 공간을 벗어난 경우 무시
if nx<0 or nx>=n or ny<0 or ny>=m:
continue
# 벽인 경우 무시
if graph[nx][ny] == 0:
continue
# 해당 노드를 처음 방문하는 경우에만 최단 거리 기록
if graph[nx][ny] == 1:
graph[nx][ny] = graph[x][y]+1
queue.append((nx,ny))
# 가장 오른쪽 아래까지의 최단 거리 반환
return graph[n-1][m-1]
from collections import deque
# N,M을 공백을 기준으로 구분하여 입력 받기
n,m = map(int, input().split())
# 2차원 리스트의 맵 정보 입력 받기
graph = []
for i in range(n):
graph.append(list(map(int, input())))
# 이동할 네 가지 방향 정의(상,하,좌,우)
dx = [-1,1,0,0]
dy = [0,0,-1,1]
# BFS를 수행한 결과 출력
print(bfs(0,0))