UGENE Forum
https://forum.ugene.net/forum/YaBB.pl
General Category >> Forum in Russian language ([ch1056][ch1091][ch1089][ch1089][ch1082][ch1086][ch1103][ch1079][ch1099][ch1095][ch1085][ch1099][ch1081] [ch1092][ch1086][ch1088][ch1091][ch1084]) >> Некоторые файлы в формате генбанка не открываются.
https://forum.ugene.net/forum/YaBB.pl?num=1403275927

Message started by Ilya Flyamer on Jun 20th, 2014 at 9:52pm

Title: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jun 20th, 2014 at 9:52pm
Здравствуйте!

Как неожиданно выяснилось, ugene не может открыть некоторые файлы в формате генбанка. К сожалению, я не могу проверить их ни в какой другой программе, но CLC Sequence Viewer их нормально открывает, да и на первый взгляд в текстовом редакторе они выглядят нормально, а другие файлы в юджине открываются "на ура".

При загрузке файла Smc3...gbk выдает следующую ошибку:

Информация[18:52] Старт задачи {Загрузка документа: Smc3 LOCUS 19 45436 bp DNA HTG 4.gbk}
Ошибки[18:52] Задача {Загрузка документа: Smc3 LOCUS 19 45436 bp DNA HTG 4.gbk} завершена с ошибкой: Данные повреждены: запись SOURCE

При загрузке файла Smc1b...gbk такую:
Информация[18:53] Старт задачи {Загрузка документа: Smc1b LOCUS 15 67267 bp DNA HTG 4.gbk}
Ошибки[18:53] Задача {Загрузка документа: Smc1b LOCUS 15 67267 bp DNA HTG 4.gbk} завершена с ошибкой: Can't parse location on COMPLEMENT

Мне эти файлы прислали, у отправителя с ними все в порядке (в какой-то другой программе).

Ubuntu 14.04, Ugene 1.13.3
https://forum.ugene.net/forum/YaBB.pl?action=downloadfile;file=Smc1b_LOCUS_15_67267_bp_DNA_HTG_4.gbk (103 KB | )
https://forum.ugene.net/forum/YaBB.pl?action=downloadfile;file=Smc3_LOCUS_19_45436_bp_DNA_HTG_4.gbk (78 KB | )

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Olga Golosova on Jun 24th, 2014 at 8:35pm
Проверили оба файла на версии 1.13.3.

Файл Smc1b_LOCUS_15_67267_bp_DNA_HTG_4.gbk у нас нормально открывается в UGENE. Вы точно правильный файл прикрепили?  :)

При открытии файла Smc3_LOCUS_19_45436_bp_DNA_HTG_4.gbk действительно происходит ошибка - UGENE "жалуется" на "SOURCE".

Причина здесь в том, что перед подпунктом "ORIGIN" отсутствуют два пробела. Вот, к примеру, описание GenBank record: http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#OrganismB. Здесь, как и в большинстве других GenBank файлах виден отступ перед "ORIGIN".

То есть стандарт скорее утверждает, что файл ошибочен, хотя строго это и не прописывается (http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html). Поэтому прежде чем добавлять такую правку в UGENE хотелось бы уточнить, откуда был получен файл. Не дадите ссылку на вебе (что-то не получается найти по accession id)?

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jun 25th, 2014 at 12:40am
Да, файл точно правильный, я его скачал отсюда и попробовал открыть.

Вот так должно быть правильно?

Code:
SOURCE      house mouse
  ORGANISM  Mus musculus

Тогда ругается так:

Code:
Информация[21:41] Старт задачи {Загрузка документа: Smc3 LOCUS 19 45436 bp DNA HTG 4.gbk}
Ошибки[21:41] Задача {Загрузка документа: Smc3 LOCUS 19 45436 bp DNA HTG 4.gbk} завершена с ошибкой: Can't parse location on JOIN


Файлы взяты не из веба, мне их прислали. Создали в какой-то другой программе, к сожалению, не знаю, в какой.

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Olga Golosova on Jun 25th, 2014 at 11:57am
Да, требуется добавить два пробела перед ORGANISM. При этом в UGENE файл успешно открывается (у нас). Прикрепляю поправленный файл, попробуйте его открыть, пожалуйста.
https://forum.ugene.net/forum/YaBB.pl?action=downloadfile;file=Smc3_LOCUS_19_45436_bp_DNA_HTG_4_with_spaces.gbk (78 KB | )

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jun 25th, 2014 at 1:48pm
Да, я пробовал сделать это сам, такая же ошибка:

Code:
Ошибки[10:50] Задача {Loading documents} завершена с ошибкой: Подзадача {Opening view for document: Smc3_LOCUS_19_45436_bp_DNA_HTG_4_with_spaces.gbk} завершена с ошибкой: Подзадача {Загрузка документа: Smc3_LOCUS_19_45436_bp_DNA_HTG_4_with_spaces.gbk} завершена с ошибкой: Can't parse location on JOIN

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Olga Golosova on Jun 25th, 2014 at 2:05pm
Странно, у нас все открывается. Вы 1.13.3 версию используете, да?

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jun 25th, 2014 at 2:13pm

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Olga Golosova on Jun 25th, 2014 at 2:36pm
Илья, мы проверили еще раз, баг у нас на 1.13.3 не вопроизводится, однако он воспроизвелся на trunk'е (то есть на разрабатываемой сейчас версии программы), что, конечно, странно, так как у вас ошибка именно на релизе.
Попробуем разобраться в чем там дело. Спасибо, что сообщили!

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jun 25th, 2014 at 2:51pm
Я, кстати, что-то не помню, откуда у меня эта версия. Я ее запускаю не из терминала из папки с бинарниками, а по-нормальному, как обычное приложение. Но в репозитории для убунты, вроде, нет версии 1.13.3 (там только 1.9.8). Может, это могло бы помочь разобраться...

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Olga Golosova on Jun 25th, 2014 at 3:46pm
Вот здесь подробно описано, как можно свежую версию UGENE поставить на Ubuntu: https://ugene.unipro.ru/wiki/display/UUOUM/Installing+UGENE+on+Ubuntu

А вот ссылка на заведенный баг про файл (на всякий случай :)): https://ugene.unipro.ru/tracker/browse/UGENE-3117

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jun 25th, 2014 at 3:54pm
А, я смотрел не тот репозиторий, все ясно, спасибо! Так я и ставил.

Спасибо за заведение бага!

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jul 25th, 2014 at 1:11am
Чтобы не создавать новую тему. Да и, может, это связанные вещи... Нкоторые генбанковские файлы открываются неправильно. Пример можно скачать отсюда (Send-File-GenBank-Create file): http://www.ncbi.nlm.nih.gov/nuccore/NC_000080.6?report=genbank&from=55617993&to=55625395

При загрузке в юджин координаты некоторых экзонов (частей CDS) каким-то образом определяются неправильно:


В обеих CDS какие-то экзоны имеют огромную правую координату (566250 в верхней и 56250 в нижней). Если посмотреть в текст файла, видно, что при этом два экзона пропали, по крайней в верхней CDS.

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Olga Golosova on Jul 25th, 2014 at 6:07pm
Спасибо за сообщение о баге, уже починили его, то есть будет поправлено в версии 1.14.

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jul 25th, 2014 at 8:25pm
Ясно, спасибо! Когда релиз намечается? Стоит ли ставить ее еще до релиза?

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Olga Golosova on Jul 25th, 2014 at 8:32pm
Скоро :)
Если интересны детали, то все фичи, которые собирались добавить в релиз, мы добавили. Все известные критические баги починили. Так что начинаем собирать пакеты для всех систем и еще раз тестировать их. Если новых критических багов не найдем, то в начале/середине следующей недели выпустим.

Title: Re: Некоторые файлы в формате генбанка не открываются.
Post by Ilya Flyamer on Jul 29th, 2014 at 6:54pm
Отлично, спасибо, ждем новостей :)

UGENE Forum » Powered by YaBB 2.5 AE!
YaBB Forum Software © 2000-2010. All Rights Reserved.