728x90
[Hive] Apache Hive
Hive
Apache Hive는 대용량 데이터를 처리하고 분석하기 위해 구축된 데이터 웨어하우징 솔루션
Hive는 데이터를 Hadoop Distributed File System (HDFS)와 같은 분산 파일 시스템에 저장하고
SQL과 유사한 Hive Query Language (HQL)을 사용하여 데이터를 쿼리하고 처리
Hive는 맵 리듀스 기반의 분산 처리를 활용하여 데이터를 처리하므로,
대용량 데이터셋에 대한 쿼리 및 분석 작업을 효율적으로 수행할 수 있음
데이터에 대한 메타 데이터를 관리하고, 쿼리를 실행하기 전에 데이터를 맵리듀스 작업으로 변환하여 처리함
하둡 (Hadoop) 대규모 데이터를 분산 처리하기위한 오픈 소스 프레임워크로 GFS와 맵리듀스 개념을 기반으로 개발됨 하둡 분산 처리 시스템 (HDFS)과 맵 리듀스 프레임워크로 시작되었으나, 여러 데이터 저장, 실 엔진, 프로그래밍 및 데이터 처리 같은 하둡 생테계 (Hadoop Echo System) 전반을 포함하는 의미로 발전 |
맵 리듀스 (Map Reduce) 대규모 데이터 처리를 위한 분산 컴퓨팅 프레임워크 하둡(Hadoop) 프로젝트의 핵심 컴포넌트로 사용되고 있음 데이터 처리 작업을 여러 단계로 나누어 처리하는 개념을 기반으로 함 맵 (Map) : 입력 데이터를 가져와서 맵함수를 적용 리듀스 (Reduce) : 맵 단계에서 생성된 중간 결과를 그룹화 하고, 리듀스 함수를 적용하여 최종 결과를 생성 |
특징
- 대화형 프롬프트로 쿼리문 사용가능
- 클러스터에 적재된 빅데이터에 작업 가능
- 복잡하게 MapReduce를 직접 하는 대신 SQL로 쉽게 가능
- JDBC/ODBC 드라이버로 확장 가능
- 쿼리 결과를 뷰에 저장하고 쿼리에 사용 가능
참조
https://velog.io/@anjinwoong/Hive-Hive-%EC%9D%98-%ED%8A%B9%EC%A7%95
반응형
'💾 Data > etc' 카테고리의 다른 글
[Excel] 엑셀을 이용하여 INSERT QUERY문 만들기 (0) | 2023.09.16 |
---|---|
[Superset] 차트에 HyperLink 걸기 (0) | 2023.07.11 |
[Trino] trino(Presto SQL)란? (0) | 2023.05.31 |
[Superset] DB 연동 (0) | 2023.05.15 |
[Superset] Apache Superset 설치 (0) | 2023.05.13 |