웹스크래핑9 웹소설 트렌드 대시보드 포트폴리오 기획 5일차 : 코어 콘텐츠 구현 깃허브에 코드를 올림. 백업용. https://github.com/chlgudrbdn/webnovel_trend_catcher 과도한 멀티프로세싱과 복잡한 클래스 상속에 집착을 버릴 것. 목표를 낮춰서 일단 카카오 스테이지 스크래핑에 중점 둘 것. 다만 csv파일을 추후 빅쿼리 무료 정책에 맞게 쓸수 있도록 해야함 https://cloud.google.com/bigquery/pricing?hl=ko 매월 10GB의 스토리지와 최대 1TB의 쿼리가 무료로 제공 가급적 중복을 줄이고 연산자원을 로컬에서 해결할 수 있을 만큼 해결해야함. 랭킹의 경우 컬럼을 줄이던가 방법을 고안해야함. 2023. 1. 7. 웹소설 트렌드 대시보드 포트폴리오 기획 4일차 : 코어 콘텐츠 구현 카카오 스테이지 부터(후순위라곤 하나 코드 작성. 기존 공모전 크롤링용 스크립트에서 변형. 구체적으로 몇 편 댓글인지 알 수 없음. 나중에 업데이트 된 기능으로 보이고, 편당 댓글인것은 그대로이므로 각 편에 접속하면 볼 수는 있으나, robots.txt에 명시된 규약에 어긋나므로 에피소드에 들어가서 확인하는 것은 불가능. 그냥 작품 전반에 대한 것이라고 Unkown으로 퉁치고, 날짜단위로 가야할거 같다. 대시보드에 언제 발생한 데이터만 반영할지도 명시해두는게 좋겠다. 일단 웹소설 작가와 플랫폼에게 유용한 분석 서비스임을 명시하는 게 좋을 것이다. 병렬처리는 하되 카테고리별로 나누는 선에서 만족할 것. 2022. 12. 27. 웹소설 트렌드 대시보드 포트폴리오 기획 3일차 : 코어 콘텐츠 구현 법적인 문제를 피하려면 스크랩핑(또는 크롤링)을 하지 말라고 명시한 부분을 피하고, 서버에 과부하를 줘선 안된다. robots.txt 고려 댓글 기능이 있는 포털 및 플랫폼 검토(나무위키 웹소설 틀 참조) 카카오 스테이지 : 등용문인데 그만큼 트래픽이 적음. 작품 페이지에 댓글을 볼 수 있고, 더 있으면 '댓글 더보기'를 클릭하면 볼 수 있다. 날짜 명시됨. (1순위). https://pagestage.kakao.com/novels/* User-agent: * Allow: / Disallow: /workshop/ Disallow: /novels/*/episodes/ 카카오페이지 : 일단 Disallow 하지 않은 것은 allow로 간주하기 때문에 댓글 크롤링 자체는 가능할것. 다만 이경우는 너무 많아서 .. 2022. 12. 25. 웹소설 트렌드 대시보드 포트폴리오 기획 2일차 : 취합한 정보 정리 티스토리 지원 광고 플랫폼은 4개 구글 애드센스 심사 조건을 알 수 없음 CPC는 클릭 유도가 중요. 맥락에 따라 눈에 띄게 배치하는 방법을 잘 결정해야한다. 경험적으로는 노벨피아쪽이 자주 노출될 것이라 예상. 아니더라도 관련 웹소설 플랫폼이 노출될 가능성이 높음. 카카오 애드핏 새 글 20개 조건은 아직 못 맞춤(다만 단순한 광고에 심사가 쉬운 편) 글 자체는 금방 양산 가능. 데이블 : 연동조건이 너무 까다롭다. 논외로 둘 것 텐핑 : 별도 심사 없이 바로 블로그 연동 가능 키워드마스터 : https://bart-2012.tistory.com/42 병행해서 분석에 사용 결론 텐핑 신청 후, (일단 추가로 노션에 있는 자료 중 16개 글을 올리고)애드핏, 구글 애드센스(그나마 수익률 좋은 대신 기준이 .. 2022. 12. 24. 이전 1 2 3 다음