loading

새소식

Data

[Data] 데이터 수집, 조회, 필터링 과정

  • -
728x90
반응형

 

 

 

 

 

 

 

Pandas 라이브러리

 

 

 

 

1. 행렬 데이터를 처리하기 위한 다양한 함수를 지원하는 라이브러리

2. 파일 열기, 저장, 행렬데이터처리, 기본사각형 등 지원

3. 데이터 전처리 과정에서 주로 사용됨

4. 인코딩 방식 : UTF-8 로 기본설정 되어 있음

 => 한글 사용시 인코딩 = UTF-8 로 설정한다면 오류가 발생하므로 encoding = "euc-kr" 을 사용한다.

 

Import

import pandas as pd

 

 

 

 

데이터 분석 과정

 

 

 

 

과정

데이터 수집 > 데이터 전처리 > 데이터 가공(필요시 전처리) > 데이터 분석 탐색/시각화(필요시 전처리) > 

필요시 모델 훈련(머신러닝 or 딥러닝) > 웹서비스 또는 분석보고서

 

일반적인 방법

데이터 수집 > 전처리 > 분석 > 시각화

 

회사에 따라 분석과정은 다르다

 

 

 

 

 

 

데이터 수집

 

 

 

 

데이터 수집 시 확인 내용

 1. 날짜 확인 : 기준일로 사용

 2. 범주형 데이터 확인 

 

데이터 읽어오기

1. 파일 위치 지정

file_path = "./sample_1.xlsx"

 

 

2. 파일 데이터 추출

sample1 = pd.read_excel(file_path, header=1,skipfooter=2, usecols="A:C")

 

 - file_path : 파일 지정(위치 포함)
 - header : 컬럼명으로 사용할 행의 위치 (default 0)
 - skipfooter : 가장 밑에서부터 포함하지 않을 행의 갯수 (default 0)
 - usecols : 가지고 올 열의 범위 (default 전체)

 

 

 

 

 

 

 

데이터 조회

 

 

 

 

전체 데이터 조회

sample1

 

 

 

Series 타입 열(컬럼) 데이터 조회

sample1["국적코드"]

 

 

 

 

DataFrame

 = 행렬을 저장 관리하는 타입

 

DataFrame 타입 다수열(컬럼) 데이터 조회

sample1[["국적코드","성별"]]

 

 

 

 

성별 중에 여성인 데이터만 추출

sample1[(sample1["성별"] == "여성") == True]

 

 

 

 

상단 데이터 조회

sample1.head()

 

=> 상단 데이터 5개 출력

 

 

하단 데이터 조회

sample1.tail()

 

=> 하단 데이터 5개 출력

 

 

데이터의 결측치 데이터 확인

sample1.info()

 

=>데이터의 결측치(nan, null) 데이터 확인 가능

 

 

 

기초 통계 데이터 조회

sample1.describe()

 

 

 

count  데이터 행의 갯수
mean  데이터 평균
std  표준편차
min  최소값
max  최대값
25%, 50%, 75% : 4분위수 데이터 -> 4분위수 데이터를 이용해서 이상치(이상한) 데이터 확인합니다.

 

 

 

 

 

 

데이터 필터링

 

 

 

 

 

데이터 초기화

1. 객체 주소 전달 방식

sample2 = sample1

 

 

2. 메모리 복제 방식(신규로 동일 생성)

sample2 = sample1.copy()

 

컬럼명 출력

sample1.columns

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

728x90
반응형
Contents

📝 포스팅 주소를 복사했습니다 📝

이 글이 도움이 되었다면 공감 부탁드립니다👍