その先にあるもの…

read_html 본문

프로그래밍/Python

read_html

specialJ 2023. 1. 9. 16:41

html에 있는 table속성에 해당하는 값을 가져올 수 있다. 

웹페이지에 있는 테이블을 모두 가져오거나 특정한 테이블을 가져올 수 있다.

리턴되는 객체는 리스트이다. 

 

table = pd.read_html( 주소 )

table[0]

 

import pandas as pd

 

pandas.read_html(URL, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

 

• URL : 대상 url 입력

• match : str or compiled regular expression, optional

   : 정규표현식 또는 문자열을 이용해서 전체 테이블을 가져오지말고 원하는 내용이 들어있는 테이블만 가져오게 함.

• flavor = None / ‘bs4’ / ‘html5lib’

   : html을 parsing할 engine 선택. None일 경우 'lxml'으로 시도된 후, 실패하면 bs4 + html5lib으로 수행된다.

• header = int or list-like or None, optional

   : header로(열 이름) 쓸 행을 지정할 수 있다.

• encoding = str or None, optional

   : 인코딩 설정. 한글이 깨져서 나올 때 encoding = 'utf-8'으로 설정하면 된다.

 

참조

https://mizykk.tistory.com/40

 

[Pandas] pd.read_html() :: html에서 표 가져오기/데이터프레임으로 만들기

⭐️ Colab에서 실행해보기 https://colab.research.google.com/drive/1qoZmWeqZV8c_-yOG2bKLMe3aDZJ2O0ia pandas import pandas as pd pd.read_html을 이용하면 html에 있는 table속성에 해당하는 값을 가져올 수 있다. 이는 웹페이지

mizykk.tistory.com

 

'프로그래밍 > Python' 카테고리의 다른 글

jupyter에서 kernel목록에 conda env list  (0) 2021.05.20
ubuntu에서 jupyter 실행  (0) 2021.05.20
pandas sql 쿼리 결과 가져오기  (0) 2021.04.01
studio code에서 conda 사용  (0) 2021.04.01
conda 사용 설명  (0) 2021.04.01
Comments