[study] Data에 대한 생각 - 1
Ah-Jji?
MNC에서 주관하는 time series data set을 가지고 고속도로 물류이동량을 예측하는 대회를 진행하고 있다.
추후에 포스팅도 계획하고 있다.
이 글을 작성하는 이유는 time series data에 대한 나의 생각을 또 한번 적어보려 한다.
과제내용
이번 과제의 내용은 2020년 1월1일부터 2020년 5월24일까지의 데이터를 주고, 실제로 예측해야 하는 값들은 2020년 5월 25일부터 5월31일까지이다.
(각 날짜별로 0~23시까지의 시간단위 별로 예측해야 한다.)
데이터를 받고서 EDA(Exploratory Data Analysis)를 하면서 느낀점은, 정말 높은 정확도는 달성해낼수가 없다는것이다.
dataset에 의존하기 때문이다...
(dataset에 관해서는 정말 할말이 많다.)
(이건 MNC에서 제공한 data가 이상하다는 의미가 아니라, 모든 학습모델들이 그렇다..)
주관적인 시계열 예측의 한계
물류이동량을 예측하는데 있어서, 굉장히 많은 요소들이 간섭한다.
날씨, 경제 등을 포함하여 나의 생각의 범위를 넘어서는 영역들에서 영향을 받는다.
그러한 요소들은 data로써 존재한다.
그렇다면 단순히 data feature들을 추가해주고 학습시키면 되는건가?
그렇게 하면, 높은 정확도를 가질수있는건가?
의문이 든다…(노가다의 시작이다.)
인공지능을 공부하면서 data가 너무 중요하다는것을 알고있다.
data가 바뀌든, 안바뀌든 그럴싸한 예측결과를 보여주는것이 어려운것임을 알고있지만, 해보고 싶다.
어떻게 접근해야 위의 문제를 해결할 수 있을까..
고민하고 또 고민한다.
댓글남기기