본문 바로가기

웹스크래핑9

웹소설 트렌드 대시보드 포트폴리오 기획 13일차 : 전환 문제 1 : 본격적으로 하자니 서버를 처음부터 고려한 설계로 가야한다. 그러나 시간이 여의치 않다. 문제 2 : 줄인다면 어떤 방향으로 갈 것인가? 문제 3 : 웹소설 작가는 과연 어떤 트렌드 데이터를 원할 것인가? 댓글이 그렇게 중요할까? 문제 4 : 그보다는 벤치마킹 대상을 집어주는게 어떨까? 그래프로만. 그리고 OSMU 가능성을 대충 보여주는게 어떨까? 소결 : 카카오 페이지, 네이버 시리즈 둘의 작품 페이지의 정보에서 OSMU 여부와 예상 수익을 모델링하여 제공하는 서비스는 어떨까? 2023. 2. 24.
웹소설 트렌드 대시보드 포트폴리오 기획 8일차 : AWS Lambda와 빅쿼리 연동 관련 1. AWS 람다에서 굳이 셀레니움을 쓰고 싶으면 https://github.com/smithclay/lambdium 50MB 제한을 통과할 수 있는 람디움이란 를 써야함. - 관련 오퍼레이션이 담긴 출처는 https://devloper-angmond.tistory.com/13 AWS Lambda 에서의 웹크롤링 고찰 50메가바이트로 한참동안 고생했던 웹크롤러입니다... 금일 안에 작성예정... 아 Aㅏ Ah.. 회사내에서 보직이동에 뭐에.. 요즘 쿠버네티스 꿀잼에 빠졌습니다. AWS ECS (DockerSwarm) vs K8S 비교하며, 뭔가 devloper-angmond.tistory.com - 생각보다 람디움을 적용하는데 필요한 시행착오가 크므로 후순위로 둘 것. 적어도 AWS에 올릴 함수의 트러블.. 2023. 1. 15.
웹소설 트렌드 대시보드 포트폴리오 기획 7일차 : 관련 트렌드 구할때 필요할 데이터 목록 참고 영상 https://www.youtube.com/watch?v=TmWqc9H7pfg&ab_channel=%EC%9B%B9%EC%86%8C%EC%84%A4%EC%9E%91%EA%B0%80_%EB%82%8C%EC%9E%91%EA%B0%80 1. 제목으로 흐름 유추(체크) 2. 작품 소개로 작품 컨셉 파악(체크) - 로그라인이란? 한 줄로 컨셉 요약 (일관된 데이터 부족, 다만 전체 string을 모아 임의로 키워드 추출 시도는 해볼 수 있을것.) 3. 키워드 분류로 유행키워드 찾기 - 키워드 분류 예시(장르, 소재, 배경, 관계(로맨스한정), 성격) - 키워드 종류 공부 방법 (리디북스 키워드 검색. 로맨스/로판, 판타지, BL) 4. 궁금증 자극 포인트 찾기 ① 스토리 궁금증 : 컨셉 - 주의할 점!.. 2023. 1. 13.
웹소설 트렌드 대시보드 포트폴리오 기획 6일차 : 랭킹 스크래핑 구현완료 무조건 멀티프로세스의 수가 많다고 좋은것은 아니었다. 가급적 cpu 코어 수*2에 맞춰보려고 한다. 장르가 7개인데 여기에만 멀티프로세스를 맞추는건 좋지 않다. 그냥 겹치는 부분이 꽤 있어도 각 플랫폼 별로 따로따로 만드는게 최선으로 보인다는 것이 점점 확신에 가까워진다. 최초에 작품 목록 스크래핑 >> cpu 코어에 맞게 작품 페이지 목록을 분배 >>이후 각 작품 페이지에서 에피소드(함수1)와 댓글을 수집(함수2). 각 메타데이터를 종합.(메인) 카카오 페이지에 올라와 있는 작품이 있다. 이것이 어떻게 랭킹에 추산되는지, 랭킹에 제외되는 태그가 존재하는지 확인해볼수 있다면 확인이 필요하다. 이유는 모호하다. 최초 런칭을 카카오 스테이지에서 한건지, 그냥 콘텐츠를 채우기 위함인지 몇 몇 샘플에 한정한 검.. 2023. 1. 8.