# hive
Hive External Table 만들기
외부 테이블(External Table)은 이미 HDFS에 존재하는 원본 데이터를 기반으로 테이블을 만들기 때문에 스키마만 정해주면 됩니다. 그래서 파일와 스키마를 따로 관리하기 좋습니다. 파일이 HDFS 상에 이미 있을 때 외부 테이블을 사용하고, 테이블이 삭제 되더

플레이데이터 부트캠프 데이터 엔지니어링 트랙 16주차 (9.18~.22)
Hive 환경과 연결한 DB에서의 다양한 SQL 쿼리문 실습과 짧은 미니 팀 프로젝트를 수행했습니다. 이외에도 리눅스 환경에서 사용하는 sh(쉘 스크립트) 파일 작성하는 등의 학습을 진행했습니다.

플레이데이터 부트캠프 데이터 엔지니어링 트랙 15주차 (9.11~.15)
Docker(도커) 와 AWS EC2 인스턴스 를 활용해 모델, 백엔드, 프론트 엔드서버를 각각 만들어보는 활동과 함께 데이터 엔지니어링 분야에서 자주 보이는 기술인 Hadoop(하둡) 과 Hive(하이브)에 관한 학습이 진행되었습니다.
[Hive] msck repair table
MSCK는 MetaStore Check의 약자입니다.즉, 말그대로 msck repair table 명령어는 메타스토어를 체크하여 hive table이 바라보는 location에는 존재하지만, 메타스토어에는 없는 파티션을 수동 추가하는 명령어입니다.
[Hive] Internal Table & External Table
Hive에는 internal table과 external table 두 가지 유형의 테이블이 있습니다.
쿼리엔진 마이그레이션 후 데이터 정합성 비교하는 법
기존 우리 데이터 파이프라인은 Spark SQL을 통해 배치 작업을 수행하였다. 2023 연초 기존 자체 배포판 Hadoop에서 Cloudera의 배포판으로 넘어가면서 배치 작업들을 Impala로 전환하였다. Impala와 Spark 모두 Hadoop 환경에서 쓸 수
For input string: "5000L"
datagrip으로 hive 0.13 version을 연결하였더니 위와 같은 에러가 발생했다.hive-site.xml 파일에서 다음과 같이 변경하였다.value에 5000 뒤에 L을 지워준다.java.sql.SQLException: For input string: "5
java.net.ConnectException: Connection refused: connect.
서버에 hive 0.13 ver과 hadoop 2.7.0 ver을 설치 후 외부에서 datagrip으로 연결을 시도했으나 위와 같은 에러가 발생하였다.우선 서버가 켜져있는지 확인하였다.서버가 켜져 있지 않다면 다음 명령어를 실행한다.서버에서 beeline으로 접속을 해
Unrecognized Hadoop major version number: 3.3.3
hadoop 3.3.3 ver에 hive 0.13.1 버전을 설치하고 schematool -initSchema -dbType mysql 명령어를 실행 시켰더니 위와 같은 에러가 발생했다.hive version을 올리거나 hadoop version을 낮추는 방법이 있는데

hive 설치
https://engineeringcode.tistory.com/269 https://domdom.tistory.com/527 https://velog.io/@jodawooooon/BigData-UbuntuEC2%EC%97%90-Hive-3.1.2%EB%A5%B

[Trouble shooting] ParquetDecodingException (Hive 테이블 조회)
정형 데이터 배치를 Sqoop 에서 Spark 으로 전환 후 전체 데이터를 조회 했을 때 아무 문제 없이 조회가 가능했다.하지만 Spark으로 전환 시점 부터 데이터 조회 시 에러 로그를 보여주며 조회가 되지 않았다.예를 들어 아래와 같이 전체 조회 시 문제가 없으나아
org/apache/hive/service/cli/thrift/TCLIService$Iface.
hive를 datagrip에서 연결하려고 했는데 다음과 같은 에러가 났다.org/apache/hive/service/cli/thrift/TCLIService$Iface.hive-service.jar가 없어서 그랬던거고 hive-service를 추가해줬더니 다음과 같은

[플레이데이터] 6월 21일 수업(Hadoop-Hive-Spark)
자바 코딩으로 집계하는게 아니라 sql쿼리를 만들면 집계를 해주는 hive를 사용Hive를 통해 따로 데이터베이스를 만들지도 않았는데 데이터를 집계가능하게 해줌su hadoop강사님이 올려주신 S3 data를 다운로드 wget https://mydatahive

[데이터 플랫폼 운영 / 개발] - Hive 3 (구성)
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Hadoop의 경우 하둡 완벽 가이드 책을 많이
[Hive] 사용해보기
Hive 예제 사용해보기 (영화 크롤링 파일) > Hive를 이용하여 영화 크롤링 파일 mapreduce 해보기 hadoop 유저 접속 제공해준 파일 tmdb.zip 파일 받기 clinet 에서 실행 unzip 설치 잘들어갔는지 확인 (namenode:500
[Hadoop] 하둡 WordCount(예제)
Hadoop에서 wordcount 하기 putty 접속 후 hdfs에 새로운 폴더 생성 hdfs에 데이터 넣기 Hadoop Cluster에서 텍스트 파일 검색하기 Hadoop MapReduce의 예제 중 하나인 grep 실행 하둡 클러스터에서 텍스트 파일을 검색 >/mydata 경로에 있는 텍스트 파일을 dfs[a-z.]+라는 문법 (dfs가 들어...