Новый метод неотрицательного байесовского суммирования для прогнозирования выживаемости при раке с использованием многомерных данных омики | Методология медицинских исследований BMC

Стратегия выживания, основанная на путях

Предположим, что цензурированные справа данные о выживании n субъектов состоят из троек {(yi, δi, xi)} для i = 1, 2, …, n. Обозначим наблюдаемое время выживания yi = min(ti, ci), где ti и ci — время события и цензурированное время соответственно. δi = I(ti< ci) indicates the occurrence of events. The goal is to estimate the survival function of the event-time random variable Y that depends on p covariates x, i.e. S(y| x) = P(Y >й| Икс). В этом исследовании мы стремимся предсказать выживаемость больных раком, используя данные геномики.

Предлагаемый метод суммирования выживания представляет собой двухуровневую структуру обучения, состоящую из нескольких базовых учащихся (подмоделей) и суперучащегося (метамодели). См. рис. 1 для схемы работы структуры.

рисунок 1

Блок-схема алгоритма предлагаемой модели суммирования выживания. Резюме: перекрестно проверенное

Сначала мы преобразуем данные геномики в субданные J, содержащие гены каждого пути. Затем на первом уровне подмодели обучаются независимо для каждого подданных. Полученные в результате подмодели отражают прогностическую способность путей. Чтобы смягчить переобучение, мы рассчитываем перекрестно проверенные прогнозы выживания на основе подмоделей. В частности, в каждом пути выборки исходных данных случайным образом разбиваются на K подмножеств (складок) (грубо) одинакового размера. k-й сгиб используется в качестве данных проверки, V(k), а остальные сгибы являются обучающими данными, T(−k), k = 1, 2,…, K. В обучающих данных можно использовать штрафную модель Кокса используется для подгонки подмодели, а базовая опасность h0−k(y−k) может быть оценена с помощью метода Бреслоу. Затем линейный предиктор (lpk) в данных проверки оценивается с помощью подобранной подмодели. Оценочные вероятности выживания ({hat{S}}^kleft({y}^k|boldsymbol{x}right)) в V(k) можно вычислить с помощью lpk и h0−k(y −k), то есть

$${hat{S}}^kleft({y}^k|boldsymbol{x}right)={e}^{-{H}^{-k}left({y}^ {-k}вправо)}$$

(1)

где ({H}^{-k}left({y}^{-k}right)={H}_0^{-k}left({y}^{-k}right) раз {e}^{lp^k}), ({H}_0^{-k}left({y}^{-k}right)) — совокупная базовая опасность, т.е. интеграл от h0 −k(y−k). Процесс повторяется для всех K-складок, что дает прогнозируемые вероятности выживания CV для всех случаев. Для J подмоделей мы можем получить J прогнозы ({{hat{S}}_j}^{CV}left(y|boldsymbol{x}right)=sum_{k=1}^K {{hat{S}}_j}^kleft({y}^k|boldsymbol{x}right),kern0.5em j=1,2,dots, J). Второй уровень использует суперучащегося для соответствия прогнозам выживания CV J-подмоделей в течение набора моментов времени. Полученные коэффициенты представляют собой оценочные веса ({hat{w}}_j) для J подмоделей. Прогностическую функцию выживания (hat{S}left(y|boldsymbol{x}right)) можно оценить путем объединения предсказаний J подмоделей ({hat{S}}_jleft (y|boldsymbol{x}right)) (восстановить исходные данные) с использованием весов ({hat{w}}_j).

Метод оценки весов ({hat{w}}_j)

Линейный комбинированный подход

Обычно функция прогнозируемого выживания (hat{S}left(y|boldsymbol{x}right)) представляет собой линейную комбинацию предсказаний подмоделей-кандидатов J, заданных как:

$$hat{S}left(y|boldsymbol{x}right)=sum_{j=1}^J{hat{w}}_j{hat{S}}_jleft(y |boldsymbol{x}right)$$

(2)

Мы оптимизируем веса (hat{w}), минимизируя потери IBS. Другая функция потерь, такая как потеря на основе AUC, должна быть благоприятной альтернативой. [22]. IBS измеряет квадрат расстояния между вероятностями и наблюдаемыми событиями в наборе моментов времени y1,…, ys [23]что можно записать как,

$$textrm{IBS}=sum_{r=1}^ssum_{iin Rleft({y}_rright)}{left{{Z}_ileft({y} _rright)-sum_{j=1}^J{hat{w}}_j{{hat{S}}_j}^{(CV)}left({y}_r|{boldsymbol{ x}}_iright)right}}^2$$

(3)

где R(yr) представляет пациентов, которые все еще находятся в группе риска на момент yr, Zi(yr) = I(yi > yr). Мы можем оценить (hat{w}) путем минимизации IBS. Как правило, предполагаемые веса ({hat{w}}_j) ограничиваются неотрицательными значениями для меньшей дисперсии и лучшего прогнозирования. Этого ограничения можно достичь, используя алгоритм нелинейной оптимизации, основанный на расширенном методе Лагранжа, который можно реализовать в R-функции solnp. [24]. Что касается выбора временных наборов y1, …, ys, мы используем девять равномерно расположенных квантилей распределения наблюдаемых событий, как предлагал Эндрю Вей. [19].

Байесовский комбинированный подход

В дополнение к решениям IBS, если мы будем рассматривать прогнозы выживания подмоделей как ковариаты и рассматривать зависящий от времени статус Zi(yr) (0 для мертвых и 1 для живых в каждый момент времени yr) как двоичный результат , прогнозируемая выживаемость может быть выражена как:

$$Eвлево[hat{S}left(y|boldsymbol{x}right)right]={h}^{-1}влево[{w}_0+sum_{j=1}^J{hat{w}}_j{hat{S}}_jleft(y|boldsymbol{x}right)right]$$

(4)

которая представляет собой обобщенную линейную модель (GLM). h — это функция связи, такая как сигмовидная функция, обеспечивающая ожидаемую прогнозируемую вероятность выживания в пределах 0–1.

Неотрицательное лассо (nLasso)

Преимущество формулы (4) заключается в том, что мы можем добавить штрафной член l1 в приведенный выше GLM и тем самым расширить использование стека выживания, например, обработку многочисленных подмоделей (в многомерном сценарии), что непрактично для сольп.

Хорошо известно, что Лассо эквивалентно байесовской иерархической модели с DE априорными коэффициентами [25]с коэффициентами, квалифицированными в этом исследовании как неотрицательные,

$${w}_jmid ssim DEleft({w}_j|0,sright)=frac{1}{2s}mathit{exp}left(-frac{w_j} {s}right),kern0.5em {w}_jge 0$$

(5)

где шкала s контролирует степень усадки; меньший масштаб вызывает более сильное сжатие, приближая оценки wj к нулю. Веса, оснащенные nLasso, определяются следующим образом:

$$hat{boldsymbol{w}}=mathit{arg}underset{boldsymbol{w},{w}_jge 0}{max}left{mathit{log} left(lleft(boldsymbol{w}right)right)-sum_{j=1}^Jfrac{{hat{w}}_j}{s}right}$$

(6)

Вышеуказанные веса можно оценить с помощью алгоритма спуска по циклическим координатам с использованием пакета glmnet в R. Ограничение неотрицательности w можно удобно выполнить с помощью пакета glmnet.

Неотрицательное лассо с шипами и плитами (nsslasso)

Мы дополнительно расширили неотрицательный DE до неотрицательного DE смеси шипов и плит (дополнительный рисунок 1),

$${w}_jmid {s}_jsim DEleft({w}_j|0,{s}_jright)=frac{1}{2{s}_j}mathit{exp }left(-frac{w_j}{s_j}right),kern0.5em {w}_jge 0$$

(7)

где sj = (1 − γj)s0 + γjs1 называется параметром полного масштаба; γj – индикатор (γj ∈ {0, 1}), следующий биномиальному распределению; s0 и s1 (s1 > s0 > 0) — параметры масштаба для распределения шипов и плит соответственно. s1 применяет более слабое сжатие к путям сильных эффектов и обычно фиксируется на большем значении, скажем, s1 = 1; в то время как s0 обеспечивает более сильное сжатие путей слабых эффектов (или даже сжимает до нуля) и представляет собой гибкое меньшее значение, выбранное из набора предопределенных значений-кандидатов посредством перекрестной проверки. Обычно Лассо с шипами и плитами более адаптивно, чем Лассо. [26]. Веса можно оценить с помощью алгоритма спуска координат EM. [26] используя пакет glmnet и пакет BhGLM в R. Ограничение неотрицательности весов также можно выполнить с помощью пакета glmnet.

Искусственная нейронная сеть

Учитывая, что ИНС может действовать как классификатор и придавать входным данным ограниченный (неотрицательный) вес, мы можем использовать ее в качестве суперобучающегося устройства. ИНС использует алгоритм обратного распространения ошибки и алгоритм градиентного спуска для итеративной оценки весов.

Оценка производительности модели

В принципе, модель суммирования выживания представляет собой задачу бинарной классификации для заданного времени. [21]. Здесь мы использовали зависящую от времени AUC и зависящую от времени оценку Бриера (BS), которые рассчитывают AUC и BS объектов в наборе рисков в любой момент времени, как рекомендовано Робертом Тибширани. [21]. Зависящая от времени AUC используется для проверки способности модели различать различные результаты в данный момент времени. Зависящая от времени BS используется для измерения производительности калибровки в заданный момент времени: (textrm{BS}(y)=frac{1}{n}sum_{i=1}^n{left( {Z}_i(y)-hat{S}left(y|boldsymbol{x}right)right)}^2). Мы выбрали три оцененные временные точки, а именно 25, 50 и 75% квантилей от общего времени наблюдения тестовых данных.

Конкурентные статистические методы

В предложенной нами модели суммирования выживаемости Лассо Кокс использовался для построения подмоделей на основе путей. Чтобы объединить подмодели, мы использовали solnp (реализованный функцией Solnp R), nLasso/nsslasso (реализованный в пакете glmnet и BhGLM) и ANN (реализованный с использованием библиотеки TensorFlow (2.3.0) Python (3.7), веса можно ограничить до неотрицательного значения, используя kernel_constraint = non_neg()) в качестве суперобучающихся. Процесс подбора ИНС см. на дополнительных рисунках 2 и 3. Для моментов времени мы использовали девять равномерно расположенных квантилей наблюдаемого распределения событий, то есть {0, 0,125, 0,25, 0,375, 0,5, 0,625, 0,75, 0,875, 1} . Мы сравнили эффективность предложенного нами метода с несколькими существующими одномодельными подходами, включая широко используемую регрессию Лассо Кокса (glmnet). [27] и расширения, включающие групповые структуры: групповое лассо с шипами и плитами (gsslasso) (BhGLM) [28]группа перекрытий «Лассо» (grlasso), группа перекрытий cMCP и группа перекрытий с плавным обрезанием абсолютного отклонения (grSCAD) (grpregOverlap) [29]. Эффективность этих методов оценивалась с использованием смоделированных и реальных данных. Все методы одной модели выполняются с использованием параметров по умолчанию. Все анализы проводились с использованием программного обеспечения R (4.1.3) на процессоре Dale T7920 INTEL Windows 10 Gold 5117 с частотой 2,00 ГГц.

2024-05-03 05:51:09

1714718514
#Новый #метод #неотрицательного #байесовского #суммирования #для #прогнозирования #выживаемости #при #раке #использованием #многомерных #данных #омики #Методология #медицинских #исследований #BMC

Стратегия выживания, основанная на путях

Метод оценки весов ({hat{w}}_j)

Неотрицательное лассо (nLasso)

Неотрицательное лассо с шипами и плитами (nsslasso)

Оценка производительности модели

Конкурентные статистические методы

Related

Leave a Comment Cancel reply

Стратегия выживания, основанная на путях

Метод оценки весов ({hat{w}}_j)

Неотрицательное лассо (nLasso)

Неотрицательное лассо с шипами и плитами (nsslasso)

Оценка производительности модели

Конкурентные статистические методы

Share this:

Related

Leave a Comment Cancel reply