본문 바로가기
중단/포트폴리오 및 제작과정 기록

웹소설 트렌드 대시보드 포트폴리오 기획 3일차 : 코어 콘텐츠 구현

by metal-11 2022. 12. 25.
  • 법적인 문제를 피하려면 스크랩핑(또는 크롤링)을 하지 말라고 명시한 부분을 피하고, 서버에 과부하를 줘선 안된다.
  • robots.txt 고려 댓글 기능이 있는 포털 및 플랫폼 검토(나무위키 웹소설 틀 참조)
    • 카카오 스테이지 : 등용문인데 그만큼 트래픽이 적음. 작품 페이지에 댓글을 볼 수 있고, 더 있으면 '댓글 더보기'를 클릭하면 볼 수 있다. 날짜 명시됨. (1순위). https://pagestage.kakao.com/novels/*
      User-agent: *
      Allow: /
      Disallow: /workshop/
      Disallow: /novels/*/episodes/
    • 카카오페이지 : 일단 Disallow 하지 않은 것은 allow로 간주하기 때문에 댓글 크롤링 자체는 가능할것. 다만 이경우는 너무 많아서 문제가 될것 오늘 신작페이지만 대상으로 해서 쭉 확인한다고 해도 양극화가 심한 카카오 페이지 특성상 유의미할지는 미지수. (후순위).
      User-agent: *
      Disallow: /viewer
      Disallow: /store/kakaopage/webseries/viewer
    • 네이버 웹소설 : 등용문, 편결을 중점으로하는 시리즈와는 달리 웹툰과 비슷한 시스템을 채택. 문피아보다 활성화가 적은편. 작품 페이지에 댓글을 볼 수 있고, 더 있으면 '댓글 더보기'를 클릭하면 볼 수 있다. 날짜 명시됨. 크롤링 막힘(논외)
      User-Agent: *
      Disallow: /
    • 네이버 시리즈 : 날짜는 있으나 편당 댓글 보는 것은 어려움. 일단 댓글 크롤링 자체는 웹소설 작품페이지가 Allow 처리됨. (후순위).
      User-agent: *
      Disallow: /
      Allow: /$
      Allow: /ebook/home.nhn
      Allow: /comic/home.nhn
      Allow: /novel/home.nhn
      Allow: /v2/movie
      Allow: /v2/broadcasting
      Allow: /ebook/detail.nhn
      Allow: /comic/detail.nhn
      Allow: /novel/detail.nhn
      Allow: /series
      Allow: /my/cookie/autoPass/information.series
      Allow: /ebook/home.series
      Allow: /comic/home.series
      Allow: /novel/home.series
      Allow: /movie/home.series
      Allow: /broadcasting/home.series
      Allow: /ebook/detail.series
      Allow: /comic/detail.series
      Allow: /novel/detail.series
      Allow: /comic/specialFreeList.series?specialFreeTypeCode=HOURLYFREE
      Allow: /novel/specialFreeList.series?specialFreeTypeCode=HOURLYFREE
      Allow: /v2/promotion
      Allow: /v2/static/promotion
    • 노벨피아 : 개발자 F12로 볼 수 없어 구현이 너무 번거로울 것이다. 일단 Disallow 하지 않은 것은 allow로 간주하기 때문에 댓글 크롤링 자체는 가능할것(최후순위).
      User-agent: *
      Disallow: /proc/
      Disallow: /json/
      Disallow: /api/
      Disallow: /error/
    • 문피아 : (수정)결제 전에는 독자의 '추천하기'에 달린 댓글 정도나 볼 수 있음. 하지만 댓글 외의 구매수를 정확히 볼 수 있는 것은 이정도. 아예 이쪽만 파는 것도 방법. 구조 자체가 비교적 덜 빡빡함.
      User-agent: *
      Allow: /tpl/novel/grace
      Allow: /tpl/novel/grace@viewer
      Disallow: /addon/
      Disallow: /ch/
      Disallow: /files/
      Disallow: /tpl/
      Disallow: /widget/
      Disallow: /page/goods_event
    • 트위터 : 키워드와 해시태그 쿼리는 명시적으로 허락됨. (후순위).
      User-agent: *
      Allow: /*?lang=
      Allow: /hashtag/*?src=
      Allow: /search?q=%23
    • 아카라이브 : 장르소설, 노벨피아 채널에 있는 대부분의 내용은 구할 수 있으나 활성도가 다소 떨어짐.(후순위)
      User-agent: *
      Allow: /
      Disallow: /u/
      Disallow: /b/my
      Disallow: /*/*/*/edit
      Disallow: /*/*/*/delete
    • 디씨 인사이드 : (수정) 전체 금지는 최초 랜딩 페이지 기준. gall.dcinside.com 이하의 게시물 목록 정도는 특정 갤러리를 빼고 문제 없음. 그러나 유동 IP 쓰는 개인 분탕치는 일이 잦아 여론을 보기에는 다소 아쉬운 곳.
      User-agent: *
      Disallow: /mgallery/board/lists/?id=rezero
    • 더쿠 : 여성향. 회원가입 필요. 일단은 모두 스크랩핑이 되는것 같긴 한데, 그냥 신경 쓰지 않는 것으로 보인다.
      User-Agent: *
      Disallow: 
  • 고려 사항
    • 네이버 웹소설과 카카오 스테이지의 우선순위를 높게 두고 스크랩핑.
    • 모든 작품에 대해선 크롤링이 어렵다. 우선은 신작 또는 랭킹작에 대해서만 다뤄야 할 것이다. 로그식으로 입력해두는게 좋겠다.
    • 키워드인 작품명과 작품명의 약칭 모두 알아야 한다는 문제가 있음. 다른 커뮤니티 사이트 모두 비슷한 문제를 공유함.
    • 아이디는 활성 유저 구분을 위해서라도 필요
    • 애초에 커뮤니티에서 무슨 작품을 언급하는지는 알 수 없다.
    • 욕망의 방향을 계산하는 자연어 처리 관련 논문을 확인해보자. 트렌드 리포트 정도의 형식도 좋지만, 이런 쪽 베이스도 없으면 안 된다.