Apache Airflow를 활용한 데이터 크롤링 병렬화 , FailOver, FailBack, 메신저로 에러 로그 받기 실무 적용기.

한국 우분투 사용자 / 배준현

Apache Airflow를 활용한 데이터 크롤링 병렬화


, FailOver, FailBack, 메신저로 에러 로그 받기 실무 적용기.


발표자 : 배준현(junhyun_bae) ( )

시간 : 20분

난이도 : 중간

키워드 : 데이터 크롤링, Cron, Apache Airflow


내용

Apache Airflow를 활용한 데이터 크롤링 병렬화, FailOver, FailBack, 메신저로 에러 로그 받기 실무 적용기.
1) 24시간 크롤링을 해야 하는 프로세스가 뻗으면 어떡하나요 ?
2) 퇴근 했는데 월요일날 출근하니 크롤렁 서버가 멈춰 있어요 ㅠㅠ
3) 클라우드 환경에서 CronJob으로 처리 중인데 성공여부가 왜 SMTP을 통해 발송 안되죠 ?
Apache Airflow 도입으로 편-안 해진 이야기를 들려 드립니다.

대상 청중

- 크롤링을 통해 데이터를 주기적으로 수집 하시는 분
- 주기성을 가진 크롤링의 병렬화, FailOver, FailBack 에 관심 있으신 분
- 크롤링이 다운되어 난처한적이 있으셨던 분

발표 이해에 도움 되는 사전 지식

- 데이터 크롤링
- Cron Expression
- FailOver, FailBack, Error Log Drop


연사 소개

안녕하세요 배준현입니다.
화제의 페북그룹 '코딩이랑 무관합니다만,'운영진, 한국 우분투 사용자그룹 로코팀 으로 활동중이며
주로 Linux를 다루며 다양한 멀티 플래폼 간의 InterOperation으로 밥벌이 중입니다.
현재는 GameHub Korea AI팀 팀장으로 근무중 입니다.