Interface ReinforcementMethod

Configuration for the reinforcement fine-tuning method.

interface ReinforcementMethod {
    grader:
        | StringCheckGrader
        | TextSimilarityGrader
        | PythonGrader
        | ScoreModelGrader
        | MultiGrader;
    hyperparameters?: ReinforcementHyperparameters;
}

Index

Properties

grader hyperparameters?

Properties

grader

grader:
    | StringCheckGrader
    | TextSimilarityGrader
    | PythonGrader
    | ScoreModelGrader
    | MultiGrader

The grader used for the fine-tuning job.

`Optional`hyperparameters

hyperparameters?: ReinforcementHyperparameters

The hyperparameters used for the reinforcement fine-tuning job.