💾 Data/etc

💾 Data/etc

[Excel] VLOOKUP

[Excel] VLOOKUP VLOOKUP함수는 엑셀에서 특정 값을 검색하고, 같은 행에 있는 다른 값을 반환하는 데 사용된다.데이터베이스와 같은 큰 데이터 세트에서 특정 항목을 빠르게 찾고 관련된 정보를 얻는 데 매우 유용하다. VLOOKUP 함수의 기본 구조VLOOKUP 함수의 기본 구문은 다음과 같다.=VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])lookup_value검색할 값table_array검색 할 데이터 범위col_index_num검색된 값이 있는 행에서 반환할 열 번호range_lookup일치 유형을 지정 (TRUE-근사값 일치, FALSE-정확한 일치) 예를 들어 다음과 같은 제품 목록이 있다고 가정해보자. ABC1제..

💾 Data/etc

[etc] MapReduce

[etc] MapReduce 맵리듀스(MapReduce)는 대규모 데이터 집합을 처리하는 데 사용되는 프로그래밍 모델이다. 대규모 컴퓨팅 클러스터에서 병렬 처리를 수행하여, 데이터를 처리하고 분석하는 데 유용하다. 맵 리듀스는 일반적으로 맵, 리듀스 두 단계로 구성된다. 맵(Map) 단계 입력 데이터를 가져와서 여러 작은 부분으로 나눈 후에, 각 부분에 대해 지정된 함수(맵 함수)를 적용하여 중간 결과를 생성한다. 이 단계에서 입력 데이터를 키-값 쌍 형식으로 매핑한다. 예를 들어 아래와 같은 입력 데이터가 있다고 가정해보자. Hello world Hello there Hello world 위의 입력 데이터에서는 다음과 같은 키-값 쌍이 생성된다. ("Hello", 1),("World", 1) ("Hel..

💾 Data/etc

[Excel] 엑셀을 이용하여 INSERT QUERY문 만들기

[Excel] 엑셀을 이용하여 INSERT QUERY문 만들기많은 양의 데이터를 DB에 insert 해야할 때,엑셀 함수를 사용하여 insert 구문을 생성할 수 있다. (컬럼명은 생략 가능)="INSERT INTO 테이블명(컬럼명1, 컬럼명2, 컬럼명2) VALUES ('"&B2&"','"&C2&"',"&D2&");"

💾 Data/etc

[Superset] 차트에 HyperLink 걸기

[Superset] 차트에 HyperLink 걸기 Superset에서 차트 구성을 할 때 컬럼에 하이퍼링크를 걸고싶은데, 아쉽게도 Superset에서 따로 지원을 하지 않는 기능인 것 같다. 대신 HTML의 href 속성을 사용해서 Chart에서 링크를 걸 수 있는 것 같다. Dataset에서 데이터 가공이 필요함 아래와 같은 SQL문을 사용하면 된다. +) target 옵션이 _blank일 경우 새탭에서 창이 열린다. _self 일 경우 현재탭에서 오픈한다, default 값으로 생략이 가능하다. CONCAT('',url,'') AS url concat안의 url은 각자의 컬럼명으로 변경해서 사용하면 될 듯 대신 위와 같은 방법을 사용하기 위해선 컬럼의 데이터가 올바른 링크여야 함 아래는 테스트용으로 ..

💾 Data/etc

[Hive] Apache Hive란?

[Hive] Apache Hive Hive Apache Hive는 대용량 데이터를 처리하고 분석하기 위해 구축된 데이터 웨어하우징 솔루션 Hive는 데이터를 Hadoop Distributed File System (HDFS)와 같은 분산 파일 시스템에 저장하고 SQL과 유사한 Hive Query Language (HQL)을 사용하여 데이터를 쿼리하고 처리 Hive는 맵 리듀스 기반의 분산 처리를 활용하여 데이터를 처리하므로, 대용량 데이터셋에 대한 쿼리 및 분석 작업을 효율적으로 수행할 수 있음 데이터에 대한 메타 데이터를 관리하고, 쿼리를 실행하기 전에 데이터를 맵리듀스 작업으로 변환하여 처리함 하둡 (Hadoop) 대규모 데이터를 분산 처리하기위한 오픈 소스 프레임워크로 GFS와 맵리듀스 개념을 기반..

💾 Data/etc

[Trino] trino(Presto SQL)란?

[trino] trino(Presto SQL)란? Trino Trino는 빅데이터 분석을 위한 분산 SQL 쿼리 엔진 PrestoSQL을 리브랜딩 한 것으로, 데이터 웨어하우스, 데이터 레이크 및 다른 데이터 저장소에 저장된 대량의 데이터에 쿼리를 하기 위해 설계됨 🔎Presto 페이스북이 최초로 개발하여, 오픈 소스로 공개한 대화식 데이터 쿼리 서비스 데이터베이스에 대한 일관된 ANSI SQL 질의가 가능 SQL 쿼리 엔진이란 무엇일까? 데이터 베이스나 데이터 처리 시스템에서 사용되는 소프트웨어 컴포넌트 주어진 데이터에 대해 사용자가 요청한 정보를 추출하기 위해 쿼리를 실행하고 결과를 반환 SQL 또는 다른 쿼리 언어로 작성된 쿼리를 해석하고 실행 쿼리엔진은 DBMS의 일부로 내장되어 있을 수도 있으며..

💾 Data/etc

[Superset] DB 연동

[Superset] DB 연동 Supeset은 간편하게 Web에서 DB 연동이 가능함 1. 우측 상단의 ➕ 를 클릭한뒤 Data > Connect database 선택 2. MySQL을 선택 MySQL이 안보이는 경우는 mysqlclient를 설치해줘야 함 pip install mysqlclient 3. 연결 정보 입력해준후 Finish 누르면 끝 4. DB가 연결되고 나면 Create Dataset으로 변경됨 Setting -> Database Connection에서 연동 확인 가능

💾 Data/etc

[Superset] Apache Superset 설치

[Superset] Apache Superset 설치 참고 Installing From Scratch | Superset Installing Superset from Scratch superset.apache.org 설치 환경 Ubuntu 22.04 1. 의존성 패키지 설치 sudo apt update sudo apt install build-essential libssl-dev libffi-dev python3-dev python3-pip \ libsasl2-dev libldap2-dev libxi-dev libmysqlclient-dev libpq-dev 2. 가상 환경 설정 sudo apt install python3.10-venv python3 -m venv superset . superset/b..

💾 Data/etc

[Superset] Apache Superset

[Superset] Apache Superset Apache Superset 웹 기반의 데이터 시각화 및 비지니스 인텔리전스(BI) 툴 Superset은 데이터 소스에서 쿼리를 실행하고, 결과를 시각적으로 표현하기 위해 다양한 차트, 대시보드 및 보고서를 제공 Apache Softwate Foundation의 오픈 소스 프로젝트로 개발되어 있으며, 기존의 BI 솔루션과 비교하여 비교적 경제적이고 높은 유연성을 제공함 Superset은 사용하기 쉬운 UI를 갖추고 있으며, 다양한 데이터 소스에서 데이터를 가져와 시각화 할 수 있음 데이터 사이언스, 분석가 및 비지니스 사용자 모두에게 적합함 Superset은 다양한 차트 유형을 제공함 ex) 막대차트, 선 그래프, 산점도, 히트 맵, 파이 차트 등 또한 다..

heywantodo
'💾 Data/etc' 카테고리의 글 목록