html & css
html
태그
-
꺽쇠 괄호로 표시
-
시작태그와 종료태그
- ex)
1
2<태그명>내용</태그명> <h1>웹스크래핑 어렵다!ㅠㅠ</h1>
-
태그는 속성명과 속성값이 있을 수 있음.
- ex) h1 태그에 ‘title’이라는 별명 붙여준 것이라 이해하기(다른 h1과의 구분 위해)
1
2<태그명 속성명="속성값">내용</태그명> <h1 id="title">웹스크래핑 어렵다!ㅠㅠ</h1>
-
웹 스크래핑에서 자주 사용되는 태그 종류
- div (구역 나누기)
- a (링크)
- h1 (제목)
- p (문단)
-
ul, li (목록)
-
부모 태그와 자식 태그
- ex)
1
2
3
4
5
6
7
8
9
10
11<부모태그> <자식태그></자식태그> <자식태그></자식태그> <자식태그></자식태그> </부모태그> <div class ="news_info"> <a href= "주소1.com"></a> <a href= "주소2.com"></a> <a href= "주소3.com"></a> </div>
css
- 웹사이트의 디자인을 표시하기 위한 언어
- 글자색 변경, 폰트 크기, 가로세로 길이 변경 등
css selcetor
-
디자인을 변경할 html 태그를 선택하는 것 = 크롤링할 html 태그를 선택
-
css 선택자 종류 4가지
1) tag 선택자
- tag name으로 선택
2) id 선택자 (#)
- id 값으로 선택
3) class 선택자 (.)
- class 값으로 선택
4) 자식 선택자 (> 혹은 한칸 띄어쓰기)
- 보통 내가 원하는 태그에 별명이 없을 때 (아래 그림에서 ‘스포츠’ text가 들어있는 span 태그 같은 경우) 사용
- 바로 아래 있는 태그를 선택한다.