[Selenium] 셀레니움 개발과 배포

FROM ubuntu:22.04

RUN apt-get update && apt-get install -y \
    openjdk-17-jdk \
    wget \
    gnupg \
    && wget -q -O - https://dl.google.com/linux/linux_signing_key.pub | apt-key add - \
    && if [ "$(uname -m)" = "aarch64" ]; then \
         echo "Using Chromium for ARM64"; \
         apt-get install -y chromium; \
       else \
         echo "Using Google Chrome for x86_64"; \
         echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" > /etc/apt/sources.list.d/google-chrome.list; \
         apt-get update && apt-get install -y google-chrome-stable; \
       fi \
    && apt-get clean && rm -rf /var/lib/apt/lists/*

# Install required dependencies for Chrome to run headlessly
RUN apt-get update && apt-get install -y \
    libx11-dev \
    libgdk-pixbuf2.0-0 \
    libnspr4 \
    libnss3 \
    libatk-bridge2.0-0 \
    libatk1.0-0 \
    libgdk-pixbuf2.0-0 \
    libdrm2 \
    libxrandr2 \
    libxcomposite1 \
    libxdamage1 \
    libxi6 \
    libxtst6 \
    && apt-get clean

# Set Chrome options to run headlessly and point to the correct location for ChromeDriver
ENV CHROME_BIN=/usr/bin/google-chrome
ENV CHROMEDRIVER_PATH=/chromedriver
ENV DISPLAY=:99
ENV GOOGLE_CHROME_BIN=/usr/bin/google-chrome-stable

# Copy ChromeDriver to container and make it executable
COPY chromedriver /chromedriver
RUN chmod +x /chromedriver

# Copy the Java application jar file to the container
COPY build/libs/myallstarteam-0.0.1-SNAPSHOT.jar myallstarteam.jar

# Set the entry point for running the Java application
ENTRYPOINT ["java", "-jar", "/myallstarteam.jar"]

0. 들어가며

Selenium을 사용해 프로젝트를 진행할때 겪었던것들에 대해 기록하겠습니다.

1. Selenium이란?

웹 애플리케이션의 자동화를 위한 Opensource입니다. 주로 브라우저 기반 테스트를 자동화하거나 웹 크롤링등의 기능을 구현할때 사용됩니다. 저는 크롤링 기능을 구현하기위해 사용했습니다.

2. Selenium 개발 과정

먼저 로컬환경에서 크롬드라이버를 다운받고, Spring boot에 Selenium 라이브러리를 추가하여 아래와 같이 크롤링을 구현했습니다.

WebDriver driver = new ChromeDriver();
Wait<WebDriver> wait = new WebDriverWait(driver, Duration.ofSeconds(10));
driver.get("TARGET_URL");

List<Dto> dtoList = new ArrayList<>();

WebElement table = wait.until(ExpectedConditions.presenceOfElementLocated(By.cssSelector("CSS_SELECTOR")));
List<WebElement> rows = table.findElements(By.tagName("tr"));
rows.stream().forEach(row -> {
    List<WebElement> info = row.findElements(By.tagName("td"));
    dtoList.add(HitterDto.fromHitterInfo(info));
});

처음 개발 과정에서 가져올 데이터가 처음엔 하나로 통일되어있었으나, 요구사항의 변경으로 3개로 분리해야하는 일이 있었습니다.

 

이때, 기존코드를 변경하며, List< WebElement> 상태로 페이지 이동을 하며 데이터를 가져오고 한번에 데이터를 변환하고자 했습니다. 해당 객체를 찾을 수 없는 오류인 StaleElementReferenceException이 발생하게됩니다.

 

이 문제는 driver가 페이지를 이동하면 WebElement로 저장해두었다고해도 찾을 수 없는것이 원인이었습니다. 저는 WebElement를 Dto로 즉시 변환하는 방법을 통해 해결했습니다. 문제의 해결 자체는 간단하였지만 예상치 못한 에러였고, 해당에러의 해결책이 driver의 렌더링을 기다리는 Duration을 추가하는 방법으로 알려져있기에 해결에 시간이 더 걸렸던거같습니다.

 

3. Docker Container에서의 Selenium

처음엔 Ubuntu에서 로컬 환경처럼 크롬과 크롬 Driver를 다운받아 실행했을때, 정상적으로 실행이되어 안심했다. 하지만 Docker Container내부에서 크롬과 크롬 Driver의 설정은 꽤나 까다로웠다.

 

🔽트러블 슈팅 과정

DockerCompose를 통해 Spring Server와 MySQL 두 컨테이너를 설정해주었다. 이때 처음엔 Spring Server에서 Dockerfile을 통해 크롬과 크롬 드라이버를 사용할 수 있도록 설정하려고 했다.


 구글링을 하며

  • Dockerfile 수정
  • headless 설정
  • Spring Server 컨테이너를 ubuntu 기반으로 동작하도록 설정

위 설정들이 점점 추가되어 결국엔 아래와 같은 형태까지 시도했다.

FROM ubuntu:22.04

RUN apt-get update && apt-get install -y \
    openjdk-17-jdk \
    wget \
    gnupg \
    && wget -q -O - https://dl.google.com/linux/linux_signing_key.pub | apt-key add - \
    && if [ "$(uname -m)" = "aarch64" ]; then \
         echo "Using Chromium for ARM64"; \
         apt-get install -y chromium; \
       else \
         echo "Using Google Chrome for x86_64"; \
         echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" > /etc/apt/sources.list.d/google-chrome.list; \
         apt-get update && apt-get install -y google-chrome-stable; \
       fi \
    && apt-get clean && rm -rf /var/lib/apt/lists/*

# Install required dependencies for Chrome to run headlessly
RUN apt-get update && apt-get install -y \
    libx11-dev \
    libgdk-pixbuf2.0-0 \
    libnspr4 \
    libnss3 \
    libatk-bridge2.0-0 \
    libatk1.0-0 \
    libgdk-pixbuf2.0-0 \
    libdrm2 \
    libxrandr2 \
    libxcomposite1 \
    libxdamage1 \
    libxi6 \
    libxtst6 \
    && apt-get clean

# Set Chrome options to run headlessly and point to the correct location for ChromeDriver
ENV CHROME_BIN=/usr/bin/google-chrome
ENV CHROMEDRIVER_PATH=/chromedriver
ENV DISPLAY=:99
ENV GOOGLE_CHROME_BIN=/usr/bin/google-chrome-stable

# Copy ChromeDriver to container and make it executable
COPY chromedriver /chromedriver
RUN chmod +x /chromedriver

# Copy the Java application jar file to the container
COPY build/libs/*.jar app.jar

# Set the entry point for running the Java application
ENTRYPOINT ["java", "-jar", "/app.jar"]

 

그러나 크롬 설정에 실패하여 SessionNotCreatedException의 늪에서 벗어날 수 없었다. 결국 seleniarm/standalone-chromium 이라는 도커 이미지를 사용해 문제를 해결했다. RemoteWebDriver 를 참조하여 연결했고, 정상적으로 동작하는것을 확인할 수 있었다.