equals를 재정의한 클래스는 모두 hashCode도 재정의해야 한다. 그렇지 않으면 hashCode 일반 규약을 어기게 되어 해당 클래스의 인스턴스를 HashMap이나 HashSet 같은 컬렉션 원소로 사용할 때 문제가 될 수 있다.
equals(Object)가 두 객체를 같다고 판단했다면, 두 객체의 hashCode는 똑같은 값을 반환해야한다.
두 번째 항목은 hashCode 재정의를 잘못했을 때 문제가 될 수 있는 조항이다. 논리적으로 같은 객체는 같은 해시코드를 반환해야한다.
Map<PhoneNumber, String> m = new HashMap<>();
m.put(new PhoneNumber(707, 867, 5309), "제니");
// 아래 코드를 실행해도 "제니"는 나오지 않는다. (null 반환)
// 논리적 동치인 이 객체는 hashCode를 정의하지 않았기 때문에 두 객체가 서로 다른 해시코드를 반환하여 두 번째 규약을 지키지 못한다.
m.get(new PhoneNumber(707, 867, 5309));
.
.
.
@Override
public int hashCode() {return 42;}
// 이 코드처럼 hashCode를 정의하면 모든 객체가 해시테이블의 버킷 하나에 담겨 마치 연결리스트처럼 동작한다.
// 그러면 평균 수행 시간이 O(1)인 해시테이블이 O(n)으로 느려져 쓸 수 없게 된다.
// hashCode 함수는 서로 다른 인스턴스에 대해 다른 해시코드를 반환해야한다.
hash 값을 사용하는 Collection(HashSet, HashMap, HashTable)은 객체가 논리적으로 같은지 비교할 때 다음과 같은 과정을 거친다.
hashCode 메서드의 리턴 값이 우선 일치하고 equals 메서드의 리턴 값이 true여야 논리적으로 같은 객체라고 판단한다.
첫 번째 예제의 경우 hashCode 메서드를 정의하지 않아 Object 클래스의 hashCode 메서드가 사용되었다.
Object 클래스의 hashCode 메서드는 객체의 고유한 주소 값을 int값으로 반환하기 때문에 객체마다 다른 값을 리턴한다.
때문에 만약 두 객체로 equals 비교를 했다면 다른 객체로 판단될 것이다.
이상적인 함수는 주어진 서로 다른 인스턴스들을 32비트 정수 범위에 균일하게 분배해야 한다. 요령을 알아보자.
위와 같이 작업했다면 이제 단위테스틀 통해 검증을 하면 된다.
파생 필드는 해시코드 계산에서 제외해도 된다. 즉, 다른 필드로부터 계산해낼 수 있는 필드는 모두 무시해도 된다. 또한 equals 비교에 사용되지 않은 필드는 ‘반드시’ 제외해야 한다. 그렇지 않으면 hashCode 두 번째 규약을 어기게 된다.
PhoneNumber 클래스에 적용하기
@Override
public int hashCode() {
int result = Short.hashCode(areaCode);
result = 31 * result + Short.hashCode(prefix);
result = 31 * result + Short.hashCode(lineNum);
return result;
}
2-2의 곱셈 31 result는 필드를 곱하는 순서에 따라 result값이 달라지게한다. 그 결과 클래스에 비슷한 필드가 여러 개일 때 해시효과를 크게 높여준다. 예컨대 String의 hashCode를 곱셈없이 구현한다면 모든 아나그램(구성하는 철자가 같고 그 순서만 다른 문자열)의 해시코드가 같아진다. 곱할 숫자를 31로 정한 이유는 31이 홀수이면서 소수이기 때문이다. 만약 이 숫자가 짝수이고 오버플로가 발생한다면 정보를 잃게된다. 2를 곱하는 것은 시프트 연산과 같은 결과를 내기 때문이다. 소수를 곱하는 이유는 명확하지 않지만 전통적으로 그리 해왔다. 결과적으로 31을 곱하면 이 곱셈을 시프트 연산과 뺄셈으로 대체해 최적화할 수 있다.(31 i는 (i << 5) - i와 같다.) 요즘 VM들은 이런 최적화를 자동으로 해준다.
PhoneNumber 인스턴스의 핵심 필드 3개만을 이용해 간단한 계산만 수행한다. 그 과정에 비결정적 요소는 전혀 없으므로 동치인 PhoneNumber 인스턴스들은 같은 해시코드를 가질 것이 확실하다.
Objects 클래스는 임의의 개수만큼 객체를 받아 해시코드를 계산해주는 정적 메서드인 hash를 제공한다.
만약 hash 메서드를 이용해 hashCode를 한 줄로 작성할 수도 있겠지만 속도는 느리다. 입력 중 기본타입이 있다면 박싱과 언박싱도 거쳐야 하기 때문이다.
@Override
public int hashCode() {
return Objects.hash(lineNum, prefix, areaCode);
}
클래스가 final이고 해시코드를 계산하는 비용이 크다면, 매번 새로 계산하기 보다는 캐싱하는 방식을 고려해야한다. 이 타입의 객체가 주로 해시의 키로 사용될 것 같다면 인스턴스가 만들어질 때 해시코드를 계산해둬야 한다.