Pyarrow로 csv데이터 빨리 읽기 (with Pandas)
Pyarrow로 csv데이터 빨리 읽기 (with Pandas) pyarrow아파치 애로우(Apache Arrow)라는 메모리 내 분석을 위한 개발 플랫폼인데, 빅데이터를 빠르게 처리하고 이동할 수 있도록 하는 일련의 기술을 제공하는 라이브러리를 파이썬 PyArrow를 통해 구현할 수 있다.기존의 pandas로 용량이 큰 csv파일을 로드하면 시간이 오래 걸리는데, pyarrow를 활용하면 시간 절약에 도움이 된다. pyarrow 설치pip을 이용하여 아래 명령어로 쉽게 설치 할 수 있다.$ pip install pyarrow csv 파일읽기아래 코드로 csv 파일을 읽어 pandas 데이터프레임으로 쉽게 변환할 수 있다.from pyarrow import csv df = csv.read_csv('dat..
Python
2021. 1. 15. 22:16
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday