본문 바로가기

데이터 분석 공부

(2)

[데이터 분석]MovieLense의 영화 평점 데이터 분석 어떤 데이터로 무엇을 연습해볼까 고민하다가 영화 평점 데이터로 분석을 해보기로 했습니다.이번에도 colab을 사용할꺼예요. 그리고 데이터는 movielense에서 다운 받았습니다. 1. colab에 파일 업로드하기from google.colab import files# 파일 업로드uploaded = files.upload()10M짜리는 파일이 너무 커서 오래 걸리더라구요. 그래서 1M로 해보았답니다. 2. 파일 불러와서 인코딩하고 확인하기import pandas as pd# 파일 경로 지정 (업로드한 파일 이름으로 경로 변경)ratings_path = "ratings.dat"movies_path = "movies.dat"# 데이터 불러오기 (적절한 인코딩 지정)ratings = pd.read_csv(ra..

[머신러닝] NSMC로 배우는 한국어 감정 분석 : 머신러닝 모델 만들기 0. 시작하기한국어로 된 영화 리뷰 데이터를 사용해 긍정/부정을 분류하는 감정 분석 모델을 만들어 보려고 합니다.쉽게 말하면 기계는 한국어의 어떤 말이 긍정적인 말이고 어떤 말이 부정적인 말인지 알 수 없습니다.우리는 한국어의 긍정/부정어를 학습하여 자동으로 분류할 수 있는 모델을 만들 수 있습니다. 학습을 위해 사용할 데이터셋은 Naver Sentiment Movie Corpus(NSMC)입니다.*NSMC는 한국어 자연어 처리(NLP) 분야에서 많이 사용되는 공개 데이터셋인데요, 영화 리뷰 텍스트, 긍/부정 레이블로 구성되어 있어요.해당 데이터셋은 한국어 문장과 label을 통해 긍정인지 부정인지 알 수 있으므로 학습 데이터셋으로 사용하기에 적합합니다.이렇게 label 값을 넣는 것도 수작업 혹은 자동..

이전 1 다음

티스토리툴바