넘치게 채우기

[SEO] 구글 검색의 작동 방식 본문

SEO + 블로그

[SEO] 구글 검색의 작동 방식

riveroverflow 2023. 12. 17. 19:32
728x90
반응형

구글 검색 엔진에 잘 노출되려면, 우선 구글 검색이 어떻게 작동하는지에 대해 아는 것이 좋겠다.

나를 알고 적을 알면 백전백승 아니겠는가?

 

구글 검색엔진은 웹 크롤러를 이용한다.

웹 크롤러는 정기적으로 웹을 탐색하여 구글 색인에 추가할 페이지를 찾는다.

구글 검색결과에 표시되는 페이지의 대부분은 웹 크롤러에 의해 자동으로 추가되는 페이지다.

 

 

구글 검색의 3단계

  1. 크롤링: 크롤러라는 자동화된 프로그램을 이용하여 인터넷에서 찾은 페이지로부터 텍스트, 이미지, 동영상을 다운로드한다.
  2. 색인 생성: 페이지의 텍스트, 이미지, 동영상 파일을 분석하고, 대규모 데이터베이스인 Google 색인에 정보를 저장한다.
  3. 검색결과 게재: 사용자가 검색하면, 검색어와 관련된 정보를 반환한다.

크롤링 - 색인 생성 - 검색결과 게재의 과정을 따른다! 모든 페이지에 각 단계들이 적용되는 것은 아니라고 한다.

 

크롤링

우선, 웹에 어떤 페이지가 존재하는지 파악한다.

모든 웹 페이지가 등록되는 중앙 레지스트리가 있는 것은 아니므로, 구글에서는 계속해서 새 페이지와 업데이트된 페이지를 검색하여 파악된 페이지 목록에 추가해야 한다.

이 과정을 'URL 검색'이라고 한다.

구글이 방문한 적이 있는 페이지는 파악된 페이지 목록에 추가되어 있다.

다른 페이지는 파악된 페이지에서 새 페이지로 연결되는 링크를 따라갈 때 발견된다.

ex) 카테고리 페이지등의 허브 페이지는 새 블로그 게시물로 연결됨.

구글에서 크롤링할 수 있도록 사이트 소유자가 페이지 목록(sitemap)을 제출해서 발견되는 페이지도 있다.

 

구글에서 페이지의 URL을 발견하면 내용을 확인하기 위해 페이지를 방문할 수 있다.

구글에서는 막대한 수의 컴퓨터를 사용하여 웹 페이지 수십억 개를 크롤링하는데, 여기서 웹 페이지를 가져오는 프로그램을 Googlebot(구글봇)이라고 한다.

구글봇은 알고리즘 프로세스를 사용하여 크롤링할 사이트와 크롤링 빈도, 각 사이트에서 가져올 페이지 수 등을 결정한다.

또한, 크롤러는 과부하를 피하기 위해 사이트를 빠르게 크롤링하지 않도록 프로그래밍되는데, 이를 위해 사이트의 응답(예시: HTTP의 500: 속도 저하 등) 및 Search Console의 설정을 사용한다.

 

구글봇이 발견한 페이지를 모두 크롤링하는 것은 아니다.

사이트 소유자가 크롤링을 허용하지 않을 수도 있고, 사이트에 로그인해야 접근할 수 있는 페이지도 있다.

 

크롤링하는 동안 구글은 브라우저에서 방문 페이지를 렌더링하는 방식과 유사하게 Chrome을 이용하여 페이지를 렌더링하고 발견된 자바스크립트를 실행한다.

렌더링 작업은 중요한데,  렌더링을 해야 콘텐츠가 페이지에 표시되는 경우가 많기 때문이다.

 

크롤링 여부는 구글 크롤러가 사이트에 액세스할 수 있는지에 따라 다른데, 보통

- 사이트를 처리하는 서버 관련 문제

- 네트워크 문제

- 구글 봇이 페이지에 액세스하지 못하도록 하는 robots.txt.규칙 문제

등이 있다.

 

 

색인 생성

페이지가 크롤링되면 구글은 페이지의 내용을 파악하려고 한다.

이 단계를 색인 생성이라고 하며, 

<title>요소 및 Alt 속성, 이미지, 동영상 등 텍스트 콘텐츠 및 핵심 콘텐츠 태그와 속성을 처리하고 분석하는 작업이 포함된다.

 

색인 생성 프로세스 중에서 구글에서는 페이지가 인터넷의 다른 페이지와 중복되는지 아니면 표준 페이지인지 판단한다.

표준 페이지는 검색결과에 표시될 수 있는데, 이를 정하기 위해 인터넷에서 찾은 비슷한 콘텐츠의 페이지를 그룹으로 묶은 다음(이 과정을 클러스터링이라고 함), 이 그룹으르 가장 잘 대표하는 페이지를 선택한다.

나머지 페이지는 사용자가 휴대기기에서 검색하거나 이 클러스터의 특정 페이지를 찾는 경우와 같이 다양한 컨텍스트에서 게재 가능한 대체 버전이다.

 

또한 구글에서는 표준 페이지와 그 콘텐츠에 관한 신호를 수집하며, 이는 검색결과에 페이지를 게재하는 다음 단계에 사용될 수 있다.

페이지의 언어, 콘텐츠가 속하는 국가, 페이지의 사용성 등이 포함된다.

 

표준 페이지와 해당 클러스터에 관해 수집한 정보는 수천 대의 컴퓨터에서 호스팅되는 대규모 데이터베이스에 저장될 수 있는데, 이를 Google 색인이라고 한다.

색인 생성은 보장되지 않으며,  페이지 콘텐츠 및 메타데이터에 따라서도 달라진다.

색인 생성 관련 문제는 일반적으로 다음과 같다:

- 페이지 콘텐츠의 품질이 낮음

- Robots meta 규칙이 색인 생성을 허용하지 않음

- 웹사이트 디자인으로 인해 색인 생성이 어려울 수 있음

 

 

검색결과 게재

사용자가 검색어를 입력하면 Google 컴퓨터는 색인에서 일치하는 페이지를 검색한 다음 품질이 가장 높고 사용자의 검색어와 가장 관련성이 크다고 판단되는 결과를 반환한다. 관련성을 사용자의 위치와 언어, 기기와 같은 정보를 비롯하여 수많은 요인으로 결정된다.

ex) '자전거 수리점'을 검색하면 파리에 있는 사용자와 홍콩에 있는 사용자에게 서로 다른 결과가 표시된다.

 

사용자의 검색어에 따라 검색결과 페이지에 표시되는 검색 기능도 달라진다. 예를 들어 '자전거 수리점'을 검색하면 지역 검색결과가 표시되고 이미지 검색결과는 표시되지 않지만 '최신 자전거'를 검색하면 로컬 결과가 아닌 이미지 검색결과가 표시될 가능성이 더 높다.

 

서치 콘솔에서 페이지의 색인이 생성된 것으로 나타나는데 검색 결과에는 페이지가 표시되지 않는 경우가 있다. 보통 다음과 같다:

- 페이지의 콘텐츠가 사용자의 검색어와 관련이 없음

- 콘텐츠 품질이 낮음

- Robots meta 규칙으로 차단

 

 

요약

요약하자면, 구글봇이 가져오는 페이지들을 크롤링하고, 페이지를 파악하여 색인을 생성하고, 입력되는 검색어에 대해 가장 적합한 결과를 우선으로 페이지들을 반환한다.

 

주요 문제는 콘텐츠의 품질이 낮거나, Robots.txt의 문제, 기타 여러 문제들(서버, 디자인 등)이 있다.

728x90
반응형