با درود،
من با مدل تجزیه و تحلیل احساسات خود که بر روی مجموعه داده ای از نقدهای فیلم آموزش داده شده است، مشکل دارم. من احساس می کنم مدل من از بیش از حد مناسب رنج می برد، اما مطمئن نیستم که چگونه آن را تعمیر کنم. در اینجا یک نمونه از کد من است:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
# Load the movie reviews dataset
data = pd.read_csv('movie_reviews.csv')
# Preprocess the data
# ... (code for data preprocessing)
# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(data['review'], data['sentiment'], test_size=0.2, random_state=42)
# Vectorize the text data using TfidfVectorizer
vectorizer = TfidfVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)
# Train the Random Forest classifier
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_vectorized, y_train)
# Evaluate the model
accuracy = model.score(X_test_vectorized, y_test)
print(f"Accuracy: {accuracy}")
به نظر می رسد دقت در داده های آموزشی بالا باشد، حدود 98٪، اما وقتی مدل را روی داده های تست تجزیه و تحلیل می کنم، دقت به طور چشمگیری به 60٪ کاهش می یابد. من فرض میکنم که مدل بیش از حد به دادههای آموزشی تناسب دارد، اما مطمئن نیستم که چگونه تعمیم آن را برای به دست آوردن عملکرد بهتر روی دادههای دیده نشده، همانطور که در وبسایت
scaler
افزایش دهم، افزایش دهم. آیا می توانید به من در مورد چگونگی رسیدگی به این مشکل بیش از حد برازش و بهبود عملکرد مدل خود در مجموعه تست کمک کنید؟
هر گونه کمک یا مشاوره بسیار قدردانی خواهد شد!