[python] Web scraping_01(html & css)

html & css

html

태그

  • 꺽쇠 괄호로 표시

  • 시작태그와 종료태그

  • ex)
    1
    2
    <태그명>내용</태그명>
    <h1>웹스크래핑 어렵다!ㅠㅠ</h1>
    
  • 태그는 속성명과 속성값이 있을 수 있음.

  • ex) h1 태그에 ‘title’이라는 별명 붙여준 것이라 이해하기(다른 h1과의 구분 위해)
    1
    2
    <태그명 속성명="속성값">내용</태그명>
    <h1 id="title">웹스크래핑 어렵다!ㅠㅠ</h1>
    
  • 웹 스크래핑에서 자주 사용되는 태그 종류

    • div (구역 나누기)
    • a (링크)
    • h1 (제목)
    • p (문단)
  • ul, li (목록)

  • 부모 태그와 자식 태그

  • ex)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    <부모태그>
      <자식태그></자식태그>
      <자식태그></자식태그>
      <자식태그></자식태그>
    </부모태그>
        
    <div class ="news_info">
      <a href= "주소1.com"></a>
      <a href= "주소2.com"></a>
      <a href= "주소3.com"></a>
    </div>
    

css

  • 웹사이트의 디자인을 표시하기 위한 언어
  • 글자색 변경, 폰트 크기, 가로세로 길이 변경 등

css selcetor

  • 디자인을 변경할 html 태그를 선택하는 것 = 크롤링할 html 태그를 선택

  • css 선택자 종류 4가지

    1) tag 선택자

    • tag name으로 선택
    • image

    2) id 선택자 (#)

    • id 값으로 선택
    • image

    3) class 선택자 (.)

    • class 값으로 선택
    • image

    4) 자식 선택자 (> 혹은 한칸 띄어쓰기)

    • 보통 내가 원하는 태그에 별명이 없을 때 (아래 그림에서 ‘스포츠’ text가 들어있는 span 태그 같은 경우) 사용
    • 바로 아래 있는 태그를 선택한다.
    • image

Reference

0%