이슈 1. 어떤 전처리가 옳은지는 직접해보고 결과를 비교해보지 않는 한 완벽한 답을 모른다. 그렇다면 Brute force한 방법으로 모든 전처리가 가능한 가능성이 적용된 데이터 셋을 미리 준비하는 방식은 어떨까?
- 물론 경우의 수가 너무 많은 만큼, 어느정도 합리적인 수준에서 할 수 있도록 경험적인 기준을 마련해줄 필요가 있다.
-- 단순히 통계책에서 "경험적으로는 결측치를 통계적 방법으로 바꿔선 오류가 커진다"라는 말에서 벗어나, 온라인으로 실제 이러한 처리 결과 어떤 전처리가 상대적으로 유효한가에 대한 설문을 자동적으로 받아서 데이터베이스에 기록하게 할 수 있을 것이다. << 이 부분은 자바스크립트나 응용프로그램으로 실행케 하여 가급적 서버에 부하를 안 주는 방식으로 가는게 좋지 않을까?
-- 케이스바이 케이스가 될 확률이 높으므로 데이터셋, 속성 별로 유사성 네트워크를 만들어두면 해당 데이터셋, 속성에 걸맞는 전처리를 행할 수 있지 않을까?
이슈 2. 딥러닝 성능에 대한 수식어로 unreasonably effective란 말이 있다. 그 외에 창발성의 일종으로 보이는 이러한 결과를 해석, 추적, 예측 할 만한 구체적인 방법론에 대한 키워드를 알 수 없다.
- 일단 최대한 로그를 많이 많들어서 추후 패턴을 확인할 수 있도록 하는 것이 좋아보인다.
'중단 > 자동 전처리 프로젝트' 카테고리의 다른 글
통계 검정 플로우 차트 (0) | 2017.10.29 |
---|