В ноутбуке есть море отвратительно длинных выводов логов - я не буду с этим заморачиваться.

Фильтр:

выравнивание mafft

выглядит не очень

Выравнивание в DECIPHER(более специализированный под 16S алгоритм)

Выглядит чуть лучше, постараыемся это формализовать.

Воспользуемся для этого хи2 тестом из iqtree используя костыль.

Сводная табличка по результатам xи2

Добавим таксономию.

Сколько не прошло хи2

Сколько не прошло + является органеллой

Сколько не определилось до филы.

До домена

Код для dencity plot судя по всему не в этом чанке.

Добавляем представленность

Плохо выравнивается то, что не подходит по длине.

Это эукариоты.

Это органеллы.

Это бактерии филы Gemmatimonadota.

Убираем органеллы и эукариот. \ Заново выравниваем

Фильтрация в R(у Зверева реально лучше реализация)

Выравнивание в mafft

Выравнивание в DECIPHER в двух режимах(c учетом вторичной структуры RNA)

Статистика сторонней тулой

По итогу я решил использовать выравнивание от DECIPHER без режима для РНК.

Стало лучше - да.

Различия в длине ридов таксонспецифичны.

Это другая работа, наверное. Я использовал что-топодобное чтобы мне логи кидались в телегу из iqtree

Все то же самое - но я убрал всё что не определилось до филы. \ Стало очень хорошо. Там был выдимо кусок работы в Rstudia, когда я бластил отдельные представленные неидентифицмированные филотипы(ASV), чтобы убедиться что это действительно мусор

Все, меня это устроило и я запустил на неделю iqtree. \ Потом перестроил уже без всего этого в SEPP, т.к. оказалось, что всё равно дерево вышло поганым.

LC_ALL=C.UTF-8 R