Amazon Bedrock Model Evaluation obsługuje teraz ocenę niestandardowych modeli

4 marca 2025

Model Evaluation w Amazon Bedrock umożliwia ocenę, porównanie i wybór najlepszych modeli fundamentalnych dla danego przypadku użycia. Amazon Bedrock oferuje wybór automatycznej oceny i oceny przez człowieka. Możesz użyć automatycznej oceny z predefiniowanymi algorytmami dla metryk takich jak dokładność, odporność i toksyczność. Dodatkowo, dla tych metryk lub subiektywnych i niestandardowych metryk, takich jak przyjazność, styl i dostosowanie do głosu marki, można skonfigurować przepływ pracy oceny ludzkiej za pomocą kilku kliknięć. Przepływy pracy oceny ludzkiej mogą wykorzystywać własnych pracowników lub zespół zarządzany przez AWS jako recenzentów. Ewaluacja modeli zapewnia wbudowane, wyselekcjonowane zestawy danych lub umożliwia dostarczanie własnych zestawów danych.

Teraz klienci mogą oceniać własne, niestandardowe, precyzyjnie dostrojone modele na podstawie zadań dostrajania i ciągłego szkolenia wstępnego w Amazon Bedrock. Pozwala to klientom na ukończenie cyklu wyboru modelu bazowego, dostosowania go, oceny i ponownego dostosowania w razie potrzeby lub kontynuowania produkcji, jeśli są zadowoleni z wyniku oceny. Aby ocenić niestandardowy model, wystarczy wybrać go z listy modeli do oceny w narzędziu wyboru modelu podczas tworzenia zadania oceny.

Ewaluacja modeli w Amazon Bedrock jest teraz ogólnie dostępna w tych regionach komercyjnych i regionie AWS GovCloud (US-West).

Aby dowiedzieć się więcej o Model Evaluation na Amazon Bedrock, zobacz stronę Amazon Bedrock developer experience. Aby rozpocząć, zaloguj się do Amazon Bedrock w konsoli zarządzania AWS lub skorzystaj z interfejsów API Amazon Bedrock.

Case Studies
Referencje

Rekomendujemy Hostersi Sp. z o. o wszystkim, którzy cenią wysoką jakość usług, profesjonalizm oraz szybki czas reakcji.

Krystian Karczyński
Założyciel i szef serwisu eTrapez
W skrócie o nas
Specjalizujemy się w dostarczaniu rozwiązań IT w obszarach projektowania infrastruktury serwerowej, wdrażania chmury obliczeniowej, opieki administracyjnej i bezpieczeństwa danych.