데이터 분석을 위해서는 데이터를 다운받고, 여기서 데이터를 선택하는 과정을 거쳐야 한다.
데이터를 읽고 전처리하고 모델링하는 전과정을 거치기 전에 항상 뭔가 import 해 주었던 라이브러리라는 것이 있었는데
시험용(?)으로 무작정 들이받다 보니 그 과정 중에 무작정 외웠던 '라이브러리'가 뭔지는 한번은 짚고 넘어가야 할 듯하다.
라이브러리는 말그대로 주제/목적별로 로직(프로그래밍관련 로직)을 모아놓은 일종의 도서관이다.
이 라이브러리를 코딩시에 선언하면 필요한 로직을 불러서 사용할 수 있게 해주는데 많은 라이브러리 중 활용도가 높은 대표적인 하기와 같은데(+ numpy정도 - 수치해석/통계관련 기초), 하기 라이브러리를 import pandas as pd 혹은 from sklearn.preprocessing import **** 등으로 선언하면 관련 로직을 그대로 사용할 수 있는 것이다.
라이브러리로 묶어 놓지 않았다면 관련 통계지식을 모두 외워야 하는데, 아인슈타인 할아버지라도 불가능하지 않을까? ㅎ
[활용도가 높은 파이썬라이브러리]
실제로 빅분기 시험용 라이브러리는 numpy, pandas, sklearn(scikit-learn)정도로 시험 진행시 구름IDE에서는 시각화가 불가능하므로 matplotlib 은 많이 연습하지 않았다.
하지만 각각의 라이브러리가 제공하고 있는 기능이 워낙 다양하므로 시간이 허락한다면 가급적 다양하게 접하고 활용하는 것이 좋을 듯 하다. (하지만 난 뱁새이므로 황새 흉내는 안내는 걸로..)
'딸깍딸깍' 카테고리의 다른 글
파이썬 - 데이터행열 선택 (0) | 2022.08.06 |
---|---|
데이터 분석과 데이터 소스 (0) | 2022.07.04 |
파이썬 맛보기? 노노! 맨땅에 헤딩! (0) | 2022.06.30 |
빅데이터와 파이썬 (1) | 2022.06.29 |
정보의 바다 (0) | 2022.06.26 |
댓글