일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- expect
- SVN
- ubuntu
- dataframe
- if
- 쉘
- sql
- Shader
- List
- boost
- Eclipse
- SSH
- autovacuum
- conda
- python
- pandas
- FIND
- C++
- Unity
- c++11
- pi
- with
- DROP
- mysql
- ngui
- postgresql
- awk
- null
- 배열
- sqlite
- Today
- Total
その先にあるもの…
read_html 본문
html에 있는 table속성에 해당하는 값을 가져올 수 있다.
웹페이지에 있는 테이블을 모두 가져오거나 특정한 테이블을 가져올 수 있다.
리턴되는 객체는 리스트이다.
table = pd.read_html( 주소 )
table[0]
import pandas as pd
pandas.read_html(URL, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)
• URL : 대상 url 입력
• match : str or compiled regular expression, optional
: 정규표현식 또는 문자열을 이용해서 전체 테이블을 가져오지말고 원하는 내용이 들어있는 테이블만 가져오게 함.
• flavor = None / ‘bs4’ / ‘html5lib’
: html을 parsing할 engine 선택. None일 경우 'lxml'으로 시도된 후, 실패하면 bs4 + html5lib으로 수행된다.
• header = int or list-like or None, optional
: header로(열 이름) 쓸 행을 지정할 수 있다.
• encoding = str or None, optional
: 인코딩 설정. 한글이 깨져서 나올 때 encoding = 'utf-8'으로 설정하면 된다.
참조
'프로그래밍 > Python' 카테고리의 다른 글
jupyter에서 kernel목록에 conda env list (0) | 2021.05.20 |
---|---|
ubuntu에서 jupyter 실행 (0) | 2021.05.20 |
pandas sql 쿼리 결과 가져오기 (0) | 2021.04.01 |
studio code에서 conda 사용 (0) | 2021.04.01 |
conda 사용 설명 (0) | 2021.04.01 |