[목차] == 개요 == '''사운덱스''' 또는 '''Soundex'''는 유사한 [[발음]]을 가진 미국인의 이름을 검색하기 위해 색인화 하는 음성 [[알고리즘]]이다. 20세기 초 미국의 로버트 C. 러셀과 마거렛 킹 오델이 개발하였다. 사운덱스는 1글자의 [[알파벳]]과 3자리의 [[숫자]]로 구성되어 있으며, 사소한 철자의 차이가 있더라도 비슷하게 발음되는 이름들을 컴퓨터의 도움 없이 비교적 손쉽게 검색할 수 있어 20세기 미국 [[인구조사]]에서 널리 활용되었다. == 변환 과정 == * 먼저 이름의 첫 글자를 제외한 나머지 글자에서 모든 모음과 h, w, y를 삭제한다. * 첫 글자는 그대로 두고 나머지 철자는 발음이 유사한 자음끼리 분류된 다음 규칙에 따라 코드를 부여한다. || 알파벳 || 코드 || || B, F, P, V || 1 || || C, G, J, K, Q, S, X, Z || 2 || || D, T || 3 || || L || 4 || || M, N || 5 || || R || 6 || * 동일한 코드가 연속으로 두 번 이상 반복된다면 첫 번째 코드만 남기고 삭제한다. 단, 동일한 코드 사이에 생략된 모음이 있는 경우에는 삭제하지 않는다. 예를 들어 Merrinz 라는 이름을 위의 과정까지 진행하면 M6652 라는 코드가 만들어졌을 것이다. 이 때 6이 연속으로 두 번 반복되므로 앞의 6만 남기고 뒤의 6은 삭제하여 M652로 바꾸는 것이다. 하지만 Shimamoto와 같은 경우 S553으로 코드화가 되었을텐데 이때 앞의 5(m)와 뒤의 5(m) 사이에는 생략된 모음 a가 있기 때문에 이 경우에는 5가 연속으로 반복되어도 삭제하지 않는다. * 위의 과정으로 만들어진 코드의 숫자 부분이 3자리를 초과하면 앞의 세 자리만 남기고 뒷자리 숫자는 삭제한다. 3자리보다 짧으면 뒷자리에 0을 추가하여 세 자리로 만든다. == 장점 == 발음을 알지만 정확한 스펠링을 모르는 이름을 손쉽게 검색할 수 있다. 예를 들어 [[벤 존슨(시인)|Jonson]]과 [[벤 존슨(육상)|Johnson]]은 똑같은 발음으로 읽히지만 정확한 철자를 알지 못하면 한 번에 검색에 성공하지 못할 가능성이 있다. 하지만 이들의 성씨를 사운덱스로 코딩하면 모두 J525로 코딩되므로, 정확한 철자를 몰라도 Jonson과 Johnson을 한 번에 찾아낼 수 있으며 비슷한 발음의 [[빈센트 얀센|Janssen]] 등과 같은 이름도 함께 찾을 수 있다. [[분류:언어학]][[분류:식별 번호]][[분류:미국의 발명품]]