본문 바로가기
딸깍딸깍

데이터 분석과 데이터 소스

by 질풍노도동글 2022. 7. 4.

파이썬은 깨작깨작 맛만 보고, 능력자들의 빅분기용 예상문제들을 접하다 보니

세상에 굉장히 많은 데이터 소스들이 있고, 이것들을 시험용으로 1차 가공해 놓아 

import pandas as pd

df = pd.read_csv('XXXXXXXXXX.csv') 

뭐 이런식으로 읽어내기만 하면 물흐르듯  분석진행할 수 있도록 해 놓은 것을 발견할 수 있었다.

그래서 당연히 시험도 그러겠거니 했는데, 그것은 나의 오~해 였다. 

사실 필요없는 컬럼 날리고, 하나의 시트에서 데이터 x, y를 나누는 것이 그렇게 어려운 것은 아니지만

너무나도 얕은 지식으로 단기간에 연습만 했더니, 이게 뭐라고 급당황. 혼자 골머리를 썩었던 기억이 난다.

지나고 보니 능력자분들의 많은 데이터 감사합니다~ 만, 적어도 간단하게나마 세상에 산재해 있는 데이터들을

어디서 찾아내고, 어떻게 분석전 데이터셋으로 정돈(?)해야 하는지 정도는 알아야 하지 않을까.

 

그에 맞춰 1차로 Open API로 입수 가능한 데이터 소스는 뭐가 있을지 궁금해졌다.

 

1. 공공데이터 포털 https://www.data.go.kr/

 - 경기도 GSEEK에서 강의 듣다가 경기도의 공공데이터 포털 경기데이터드림(https://data.gg.go.kr) 의 존재를 알았다.

 - 그리고 찾아보니 국가에서 공공데이터를 모아놓은 공공데이터 포털이라는 게 있더라. 

 - 굉장히 많은 카테고리 들이 존재해서 인지, 사이트가 조금 무거운 감은 있음

 - 다른 나라에도 나라별로 공공데이터 포털이나, 그 정보를 실은 https://opendatainception.io/ 포털도 있긴 하나, 아직 그 정보를 습득하여 활용할 능력이 없으므로 들여다 보지도 않기로 한다.

 

2. githubs (https://github.com/awesomedata/awesome-public-datasets)

 - 대부분의 능력자 분들이 여기에 데이터를 올려놓고 Kaggle 혹은 구글코랩등에서 불러서 작업을 하기도 한다.

 - 각 데이터셋 마다 저작권도 있다고 하여 연습용으로 끌어서 쓸 때 주의가 필요하다고 들었다. 

 - 굉장히 다양한 토픽에 적용 가능한 데이터셋이 무궁무진 하다는 장점이 있다고 한다.

 

3. 유튜브데이터셋 (https://research.google.com/youtube8m/index.html

 - 유튜브 컨텐츠가 범람하는 지금 관련 데이터들 분석 소스로 얻기 위해 유용하다.

 

이 외에도 굉장히 다양한 오픈 데이터 소스가 있긴 하지만,

초심자 주제에 여기저기 깔짝거리지 않기로 한다. 

언젠가는 raw data로 이것저것 멋있게 분석해 볼테닷. 

반응형

'딸깍딸깍' 카테고리의 다른 글

파이썬 - 데이터행열 선택  (0) 2022.08.06
파이썬 - 라이브러리(?)  (0) 2022.07.10
파이썬 맛보기? 노노! 맨땅에 헤딩!  (0) 2022.06.30
빅데이터와 파이썬  (1) 2022.06.29
정보의 바다  (0) 2022.06.26

댓글