Interface ReinforcementHyperparameters

The hyperparameters used for the reinforcement fine-tuning job.

interface ReinforcementHyperparameters {
    batch_size?: number | "auto";
    compute_multiplier?: number | "auto";
    eval_interval?: number | "auto";
    eval_samples?: number | "auto";
    learning_rate_multiplier?: number | "auto";
    n_epochs?: number | "auto";
    reasoning_effort?:
        | "low"
        | "medium"
        | "high"
        | "default";
}

Index

Properties

batch_size? compute_multiplier? eval_interval? eval_samples? learning_rate_multiplier? n_epochs? reasoning_effort?

Properties

`Optional`batch_size

batch_size?: number | "auto"

Number of examples in each batch. A larger batch size means that model parameters are updated less frequently, but with lower variance.

`Optional`compute_multiplier

compute_multiplier?: number | "auto"

Multiplier on amount of compute used for exploring search space during training.

`Optional`eval_interval

eval_interval?: number | "auto"

The number of training steps between evaluation runs.

`Optional`eval_samples

eval_samples?: number | "auto"

Number of evaluation samples to generate per training step.

`Optional`learning_rate_multiplier

learning_rate_multiplier?: number | "auto"

Scaling factor for the learning rate. A smaller learning rate may be useful to avoid overfitting.

`Optional`n_epochs

n_epochs?: number | "auto"

The number of epochs to train the model for. An epoch refers to one full cycle through the training dataset.

`Optional`reasoning_effort

reasoning_effort?:
    | "low"
    | "medium"
    | "high"
    | "default"

Level of reasoning effort.

Interface ReinforcementHyperparameters

Index

Properties

Properties

`Optional`batch_size

`Optional`compute_multiplier

`Optional`eval_interval

`Optional`eval_samples

`Optional`learning_rate_multiplier

`Optional`n_epochs

`Optional`reasoning_effort

Settings

On This Page

Interface ReinforcementHyperparameters

Index

Properties

Properties

Optionalbatch_size

Optionalcompute_multiplier

Optionaleval_interval

Optionaleval_samples

Optionallearning_rate_multiplier

Optionaln_epochs

Optionalreasoning_effort

Settings

On This Page

`Optional`batch_size

`Optional`compute_multiplier

`Optional`eval_interval

`Optional`eval_samples

`Optional`learning_rate_multiplier

`Optional`n_epochs

`Optional`reasoning_effort