집합(set)은 파이썬 2.3부터 지원하기 시작한 자료형으로, 집합에 관련된 것을 쉽게 처리하기 위해 만든 자료형이다.
>>> s1 = set([1, 2, 3])
>>> s1
{1, 2, 3]
집합 자료형은 위와 같이 set 키워드를 사용해 만들 수 있고 set()안에 리스트나 문자열도 들어갈 수 있다.
>>> s2 = set("Hello")
>>> s2
{'e', 'H', 'l', 'o'}
위에서 예시로 든 문자열의 집합을 보면 결과가 {'H', 'e', 'l', 'l', 'o'}가 아닌 {'e', 'H', 'l', 'o'}로 l문자가 하나 빠져있고 순서도 뒤죽박죽이다. 그 이유는 set에 2가지 특징이 있기 때문이다.
이와 같은 특징때문에 set 자료형은 순서가 없으므로 인덱싱으로 값을 얻을 수 없다.
중복을 허용하지 않는 set의 특징은 자료형의 중복을 제거하기 위한 역할로도 종종 사용된다.
>>> s1 = set([1, 2, 3, 4, 5, 6])
>>> s2 = set([4, 5, 6, 7, 8, 9])
>>> s1 & s2
{4, 5, 6}
&기호를 이용하면 간단히 교집합을 구할 수 있다. 또한, s1.intersection(s2)
나 s2.intersection(s1)
과 같이 intersection 함수를 사용해도 같은 결과를 보여준다.
>>> s1 = set([1, 2, 3, 4, 5, 6])
>>> s2 = set([4, 5, 6, 7, 8, 9])
>>> s1 | s2 # "|" 기호를 사용한 방법
{1, 2, 3, 4, 5, 6, 7, 8, 9}
>>> s1.union(s2) # union 함수를 사용한 방법
{1, 2, 3, 4, 5, 6, 7, 8, 9}
합집합에서는 4, 5, 6처럼 중복해서 포함된 값은 한 개씩만 표현된다.
>>> s1 = set([1, 2, 3, 4, 5, 6])
>>> s2 = set([4, 5, 6, 7, 8, 9])
>>> s1 - s2
{1, 2, 3}
>>> s2 - s1
{8, 9, 7}
>>> s1.difference(s2)
{1, 2, 3}
>>> s2.difference(s1)
{8, 9, 7}
이미 만들어진 set 자료형에 값을 추가할 수 있다. 1개의 값만 추가(add)할 경우에는 다음 예시와 같이 할 수 있다.
>>> s1 = set([1, 2, 3])
>>> s1.add(4)
>>> s1
{1, 2, 3, 4}
여러 개의 값을 한번에 추가(update)할 때는 다음과 같이 하면 된다.
>>> s1 = set([1, 2, 3])
>>> s1.update([4, 5, 6])
>>> s1
{1, 2, 3, 4, 5, 6}
>>> s1 = set([1, 2, 3])
>>> s1.remove(2)
>>> s1
{1, 3}