Data

[Data] 데이터 수집, 조회, 필터링 과정

728x90

Pandas 라이브러리

1. 행렬 데이터를 처리하기 위한 다양한 함수를 지원하는 라이브러리

2. 파일 열기, 저장, 행렬데이터처리, 기본사각형 등 지원

3. 데이터 전처리 과정에서 주로 사용됨

4. 인코딩 방식 : UTF-8 로 기본설정 되어 있음

=> 한글 사용시 인코딩 = UTF-8 로 설정한다면 오류가 발생하므로 encoding = "euc-kr" 을 사용한다.

Import

import pandas as pd

데이터 분석 과정

과정

데이터 수집 > 데이터 전처리 > 데이터 가공(필요시 전처리) > 데이터 분석 탐색/시각화(필요시 전처리) >

필요시 모델 훈련(머신러닝 or 딥러닝) > 웹서비스 또는 분석보고서

일반적인 방법

데이터 수집 > 전처리 > 분석 > 시각화

회사에 따라 분석과정은 다르다

데이터 수집

데이터 수집 시 확인 내용

1. 날짜 확인 : 기준일로 사용

2. 범주형 데이터 확인

데이터 읽어오기

1. 파일 위치 지정

file_path = "./sample_1.xlsx"

2. 파일 데이터 추출

sample1 = pd.read_excel(file_path, header=1,skipfooter=2, usecols="A:C")

- file_path : 파일 지정(위치 포함)
- header : 컬럼명으로 사용할 행의 위치 (default 0)
- skipfooter : 가장 밑에서부터 포함하지 않을 행의 갯수 (default 0)
- usecols : 가지고 올 열의 범위 (default 전체)

데이터 조회

전체 데이터 조회

sample1

Series 타입 열(컬럼) 데이터 조회

sample1["국적코드"]

DataFrame

= 행렬을 저장 관리하는 타입

DataFrame 타입 다수열(컬럼) 데이터 조회

sample1[["국적코드","성별"]]

성별 중에 여성인 데이터만 추출

sample1[(sample1["성별"] == "여성") == True]

상단 데이터 조회

sample1.head()

=> 상단 데이터 5개 출력

하단 데이터 조회

sample1.tail()

=> 하단 데이터 5개 출력

데이터의 결측치 데이터 확인

sample1.info()

=>데이터의 결측치(nan, null) 데이터 확인 가능

기초 통계 데이터 조회

sample1.describe()

count	데이터 행의 갯수
mean	데이터 평균
std	표준편차
min	최소값
max	최대값
25%, 50%, 75% : 4분위수 데이터 -> 4분위수 데이터를 이용해서 이상치(이상한) 데이터 확인합니다.

데이터 필터링

데이터 초기화

1. 객체 주소 전달 방식

sample2 = sample1

2. 메모리 복제 방식(신규로 동일 생성)

sample2 = sample1.copy()

컬럼명 출력

sample1.columns

728x90

저작자표시 비영리 변경금지 (새창열림)

'Data' 카테고리의 다른 글

[Data] 데이터 분석 활용 연습 - 1 (데이터 조회/컬럼명 변경/데이터형식 변경/날짜함수활용) (8)	2023.11.29
[Data] Anaconda Prompt 주요 명령어 (아나콘다 프롬프트) (2)	2023.11.13

Contents

새소식