판례에 대해 코사인 유사도를 돌리기 위해서 판례에 대해 벡터화를 진행해야 합니다
하지만 판례의 shape 이 너무나도 커서 벡터화를 진행한 shape 이 너무나도 커서 유사도가 정확하게 나오지 않습니다
어떻게 진행해야 할까요?
현재 진행해본 알고리즘은
- 사용자의 발화를 bert Tokenizer 로 벡터화 진행
- 테스트용으로 6개의 판례의 내용(모든 전문)을 bert Tokenizer 로 벡터화 진행
- 2번과정에서 나온 판례의 제일 큰 shape 으로 패딩을 맞춰주고 코사인 유사도 검사
현재 문제점
- 유사도가 너무 낮게 나옴
- 테스트용 6개 판례 중 2개는 인간이 판단했을때 유사도가 높고 4개는 전혀 다른 내용이지만 위 알고리즘을 수행 했을때 4개의 전혀 다른 내용이 유사도가 그나마 높게 나옴
ex ) 인간이 판단했을때 유사도가 높은건 코사인 유사도 수행시 12%, 전혀 일치하지 않는건 23%
판례에 대해 요약을 진행해야 하는데 요약할때 사용할수 있는 알고리즘과 프리트레인드 모델을 추천해주실수 있으면 감사하겠습니다..
이메일좀 알려주실수 있나요..
뉴스 정보를 엘라스틱 서치에 관리