본문 바로가기

전체 글72

웹소설 트렌드 대시보드 포트폴리오 기획 6일차 : 랭킹 스크래핑 구현완료 무조건 멀티프로세스의 수가 많다고 좋은것은 아니었다. 가급적 cpu 코어 수*2에 맞춰보려고 한다. 장르가 7개인데 여기에만 멀티프로세스를 맞추는건 좋지 않다. 그냥 겹치는 부분이 꽤 있어도 각 플랫폼 별로 따로따로 만드는게 최선으로 보인다는 것이 점점 확신에 가까워진다. 최초에 작품 목록 스크래핑 >> cpu 코어에 맞게 작품 페이지 목록을 분배 >>이후 각 작품 페이지에서 에피소드(함수1)와 댓글을 수집(함수2). 각 메타데이터를 종합.(메인) 카카오 페이지에 올라와 있는 작품이 있다. 이것이 어떻게 랭킹에 추산되는지, 랭킹에 제외되는 태그가 존재하는지 확인해볼수 있다면 확인이 필요하다. 이유는 모호하다. 최초 런칭을 카카오 스테이지에서 한건지, 그냥 콘텐츠를 채우기 위함인지 몇 몇 샘플에 한정한 검.. 2023. 1. 8.
웹소설 트렌드 대시보드 포트폴리오 기획 5일차 : 코어 콘텐츠 구현 깃허브에 코드를 올림. 백업용. https://github.com/chlgudrbdn/webnovel_trend_catcher 과도한 멀티프로세싱과 복잡한 클래스 상속에 집착을 버릴 것. 목표를 낮춰서 일단 카카오 스테이지 스크래핑에 중점 둘 것. 다만 csv파일을 추후 빅쿼리 무료 정책에 맞게 쓸수 있도록 해야함 https://cloud.google.com/bigquery/pricing?hl=ko 매월 10GB의 스토리지와 최대 1TB의 쿼리가 무료로 제공 가급적 중복을 줄이고 연산자원을 로컬에서 해결할 수 있을 만큼 해결해야함. 랭킹의 경우 컬럼을 줄이던가 방법을 고안해야함. 2023. 1. 7.
22.10.20 경신스 📰※ 본 스크랩은 얼라이브커뮤니티의 체인지업 과정에서 나온 경제 신문 스크랩 템플릿에 기반함(기사 본문은 저작권 문제로 제거)※ 기사의 저작권은 링크의 기사에 속해 있으며 문제가 있을시 삭제기사제목 : "국가대표 AI 기업 되겠다"…100대 스타트업 대표의 출사표신문링크 : https://n.news.naver.com/article/newspaper/015/0004764559?date=20221020기사내용키워드 : AI 솔루션, AI 플랫폼, 코리아 AI 스타트업 100 콜로키움추가조사 진행계획 : 10월 22일 추가조사 진행여부 본문의 근거 (객관적 수치)요약코리아 AI 스타트업 100 콜로키움에서 45개 스타트업 올해 첫 선정본문의 근거지난해 선정된 스타트업 가운데 12개 기업은 상장하거나 유니콘 .. 2023. 1. 2.
23.01.02 신문스크랩 포스트 제목 공개여부: Yes 사람: hyoung-gyou choe 태그: 정보정리 ※ 본 스크랩은 얼라이브커뮤니티의 체인지업 과정에서 나온 경제 신문 스크랩 템플릿에 기반함(기사 본문은 저작권 문제로 제거) ※ 기사의 저작권은 링크의 기사에 속해 있으며 문제가 있을시 삭제 기사제목 :[2022 디지털마케팅 연말결산]슬슬 실감되는 '쿠키리스시대' 신문링크 : https://www.bloter.net/newsView/blt202212280015 기사내용키워드 : 디지털 마케팅, 쿠키 본문의 근거 (객관적 수치) 요약 서드파티 데이터(3rd party data) 활용이 어려워짐 >> 빅테크 실적이 확연히 떨어짐 업계는 각자도생을 준비(광고 지면을 늘려 지위를 공고히 하려는 플랫폼사, 확보한 고객을 충성 고객.. 2023. 1. 2.
새해 목표 백업 1월 1주차 이내 포트폴리오 완성 매일 지원할것(한 꺼번에 목록 만들지말고) - 이를 노션에 정리할것 경제신문스크랩 완벽할 필요까지는 없으니 간략하게라도 할것. 앰플리튜드 강의를 1월 2주차 이내에 마무리 지을것. 1월 4일 통계청 9급 공무원 시험 일정 및 상세 사항 확인바람 1월 20일 통계청 시험 결과 모의고사를 치뤄볼것. 적어도 1일 6시간 뽀모도로 실천하기 위해 노력할것 열품타 참가자가 많을테니 지금이라도 미리 개설바람 2022. 12. 31.
웹소설 트렌드 대시보드 포트폴리오 기획 4일차 : 코어 콘텐츠 구현 카카오 스테이지 부터(후순위라곤 하나 코드 작성. 기존 공모전 크롤링용 스크립트에서 변형. 구체적으로 몇 편 댓글인지 알 수 없음. 나중에 업데이트 된 기능으로 보이고, 편당 댓글인것은 그대로이므로 각 편에 접속하면 볼 수는 있으나, robots.txt에 명시된 규약에 어긋나므로 에피소드에 들어가서 확인하는 것은 불가능. 그냥 작품 전반에 대한 것이라고 Unkown으로 퉁치고, 날짜단위로 가야할거 같다. 대시보드에 언제 발생한 데이터만 반영할지도 명시해두는게 좋겠다. 일단 웹소설 작가와 플랫폼에게 유용한 분석 서비스임을 명시하는 게 좋을 것이다. 병렬처리는 하되 카테고리별로 나누는 선에서 만족할 것. 2022. 12. 27.