TIL. Data Structure - 8/10

예흠·2020년 8월 10일
0

wecode

목록 보기
30/43

* Data Structure

1. Set

- Set 란?

Set 란 array나 list처럼 순열 자료구조 (collection)입니다.
하지만 set는 순서라는 개념이 존재하지 않습니다. Set의 특징은 다음과 같습니다.

  • 데이터를 비순차적(unordered)으로 저장할 수 있는 순열 자료구조 (collection).
  • 삽입(insertion) 순서대로 저장되지 않는다. 즉 특정한 순서를 기대할 수 없는 자료구조.
  • 수정 가능하다(mutable).
  • 동일한 값을 여러번 삽입 불가능하다. 동일한 값이 여러번 삽입 되면 하나의 값만 저장된다.
  • Fast Lookup이 필요할때 주로 쓰인다.
>>> my_set = {1, 2, 3, 4, 5, 1, 2}
>>> my_set
{1, 2, 3, 4, 5}
>>> for i in my_set:
...     print(i)
...
1
2
3
4
5
>>> my_set.append(7)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'set' object has no attribute 'append'
>>> my_set[0]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'set' object does not support indexing
>>> my_set.add(7)
>>> my_set
{1, 2, 3, 4, 5, 7}
>>>
>>> 5 in my_set # look up
True

이렇게 순서가 없다는걸 알수가 있습니다 (index = X)

- Set의 구조

  • Array와 달리 set은 요소들을 순차적으로 저장하지 않습니다.
  • Set에서 요소들이 저장될 때 순서는 다음과 같습니다.
    • 저장할 요소의 값의 hash 값을 구합니다.
    • 해쉬값에 해당하는 공간(bucket)에 값을 저장합니다.
  • 이렇게 set는 저장하고자 하는 값의 해쉬값에 해당하는 bucket에 값을 저장하기 때문에 순서가 없습니다. 순서가 없기 때문에 indexing도 없습니다.
  • 그리고 해쉬값 기반의 bucket에 저장하기 때문에 중복된 값을 저장할 수 없는것입니다.
  • 해쉬값을 기반으로 저장하기 때문에 look up 이 굉장히 빠름.
    • Look up: 특정 값을 포함하고 있는지를 확인 하는것 ==> 5 in my_set
    • Set의 총 길이와 상관없이 단순히 해쉬값 계산 후 해당 bucket을 확인하면 됨으로 O(1)

hash는 단방향 (one way) 암호화 입니다. 단방향이란 한번 암호화 하면 복호화가 안된다는 뜻입니다. 실제 값의 길이와 상관없이 hash 값을 일정한 길이를 가집니다. 그럼으로 Hash는 주로 임의의 길이를 갖는 임의의 데이터에 대해 고정된 길이의 데이터로 매핑할때 사용됩니다.

- 언제 Set 을 써야할까?

  • 중복된 값을 골라내야 할때
  • 빠른 look up 을 해야 할때
  • 그러면서 순서는 상관 없을때

2. Dictionary/ HashMap/ HashTable

- Dictionary란?

Dictionary (다른 언어에서는 hashmap 이나 hash table이라고 하기도 함)는
Key-value 형태의 값을 저장할 수 있는 자료구조 입니다. 이름은 "정우성"등 실제 데이터 값과 데이터를 설명하는 key의 대응 관계를 표현할때 유용합니다.

  • Set과 마찬가지로 특정 순서대로 데이터를 리턴하지 않습니다.
  • Key의 값은 중복될 수 없고 만일 중복된 key 가 있으면 먼저 있던 key와 value를 대체합니다.
  • 수정 가능합니다(mutable).
>>> my_dict = {1 : "one", "two" : 2, 3 : 3.0, 1: "one_one"}
>>> my_dict
{1: 'one_one', 'two': 2, 3: 3.0}
>>> for key, value in my_dict.items():
...     print(f"{key} : {value}")
...
1 : one_one
two : 2
3 : 3.0
>>> my_dict[1]
'one_one'
>>> my_dict.get("two")
2
>>> my_dict[5]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: 5
>>> my_dict.get(5, 0)
0
>>> my_dict[7] = "Seven"
>>> my_dict
{1: 'one_one', 'two': 2, 3: 3.0, 7: 'Seven'}

이렇게 순서대로 리턴을 하진 않고 key와 value가 있습니다.

- Dictionary의 내부 구조

  • Set와 비슷하게 key 값의 해쉬값을 구한 후 해쉬값에 속해있는 bucket에 값을 저장합니다.
  • 그럼으로 set와 마찬가지로 순서가 없고 중복된 key 값은 허용 되지 않습니다.

-언제 사용해야 할까?

마치 데이터베이스 처럼 키와 값을 묶어서 데이터를 표현해야 할때 유용합니다.
실제로 데이터베이스 에서 읽어들인 값을 dictionary로 변환해서 사용 자주 합니다.

profile
노래하는 개발자입니다.

0개의 댓글