집을 구하거나 도시 정책을 세울 때 우리는 보통 공공 데이터를 당연히 믿고 쓰잖아요? 네, 그럼요. 그런데 만약 여러분이 보고 있는 아파트의 공식 대지 면적이 서류상 0으로 찍혀 있다면 어떨까요? 음... 아니면 실제로는 존재하지도 않는 여의도 면적의 수백 배나 되는 건물이 데이터상에 떡하니 자리 잡고 있다면요? 이게 그냥 가상의 이야기가 아니라는 게 문제죠. 맞아요.
오늘 저희가 함께 깊이 파고들어 볼 자료가 바로 이런 문제를 정면으로 다루고 있어요. 건축공간연구원에서 나온 <인공지능을 활용한 건축물 데이터 품질 고도화 방향 연구>라는 보고서인데요. 네, 저희가 이 보고서를 받아보고 정말 흥미로웠던 게 우리나라 건축 데이터라는 이 거대한 시스템 속에 숨어 있는 수 많은 오류들을 인공지능이라는 새로운 탐정을 고용해서 어떻게 찾아내는지 또 어떻게 해결할 수 있는지 그 가능성을 아주 구체적으로 보여주고 있더라고요.
지금부터 그 추적 과정을 함께 따라가 보시죠. 맞아요. 이 건축물 데이터라는 게 단순히 그냥 건물 목록이 아니에요.
국가 통계의 기초가 되고 부동산 거래의 기준이 되고 심지어 재난 대응 계획을 세울 때도 쓰이는 우리 사회의 핵심 인프라거든요. 정말 기반이 되는 데이터군요. 그렇죠.
데이터의 작은 오류 하나가 엄청난 사회적 비용으로 이어질 수 있다는 뜻이죠. 이 보고서의 진짜 가치는 사람의 눈으로는 도저히 감당할 수 없는 이 방대한 데이터의 오류를 체계적으로 진단하고 해결할 새로운 길을 보여줬다는 데 있습니다. 좋습니다.
그럼, 먼저 이 건축물 데이터의 기반이 얼마나 흔들리고 있는지 그 현주서부터 제대로 짚어보죠. 보고서를 보니까 2022년에 정부가 건축물 대장 데이터를 대대적으로 점검했는데 전체 오류율이 1.37%라고 나와 있어요. 1.37%면 얼핏 보기엔 그렇게 높아 보이진 않는데요? 네, 뭐 숫자만 딱 보면 충분히 그렇게 생각하실 수 있죠.
1% 정도면 괜찮은 거 아닌가? 하고요. 맞아요. 하지만 이게 전체 점검 대상 건수가 무려 6억 2천만 건이 넘어요.
6억 2천만 건이요? 네. 여기서 1.37%는 계산해 보면 855만 건의 오류에 해당합니다. 와, 855만 건. 이건 완전히 다른 이야기네요. 그렇죠.
서울시 인구에 육박하는 오류가 데이터베이스 어딘가에 숨어 있다는 거죠. 퍼센트가 아니라 절대적인 숫자로 보니까 문제의 규모가 확 와닿아요. 그렇죠.
그리고 이건 그냥 전체 평균의 함정이에요. 특정 규칙, 그러니까 좀 더 까다로운 기준으로 데이터를 들여다보면 오류율이 10%는 기본이고 30%를 훌쩍 넘는 경우도 수두룩했습니다. 30%요? 네. 예를 들어 총괄표재부라는 게 있거든요? 총괄표재부요? 그게 뭔가요? 아, 아파트 단지 전체의 정보를 유약해 놓은 일종의 대표문서나 표지라고 생각하시면 쉬워요.
그런데 이 대표문서에 적힌 건축면적이랑 단지 내 각 동의 건축면적을 전부 합한 값이 일치하지 않는 경우가 17%가 넘었어요. 잠깐만요. 그러니까 아파트 단지 전체를 설명하는 그 표지에 적힌 숫자랑 그 안에 건물들 하나하나의 숫자를 더한 값이 다르다는 거잖아요? 바로 그겁니다.
이건 뭐 기본적인 덧셈이 안 맞는다는 건데 정말 의외네요. 더 황당한 것도 있어요. 건물이 서 있는 대지 면적이 정작 그 위에 지어진 건물 바닥 면적보다 더 작게 기록된 경우요.
땅보다 건물이 더 크다고요? 네. 물리적으로 불가능한 의류가 무려 전체 데이터의 25%, 즉 4권 중 1권꼴로 발견됐습니다. 4권 중 1권이요? 그건 단순한 오타 수준이 아닌데요. 보고서에 나온 좀 더 구체적인 사례를 들어주실 수 있나요? 상상이 잘 안 가서요? 물론이죠.
면적 데이터가 마이너스 값, 그러니까 음수로 기재된 경우가 있었고요. 마이너스요? 네. 그리고 건폐율이나 용적률이 수억 퍼센트에 달하는 말도 안 되는 값들도 발견됐어요. 건폐율이라는 게 대지 면적 대비 건물이 덮고 있는 면적의 비율이잖아요.
그렇죠. 100%를 넘을 수가 없는데. 바로 그겁니다.
맞아요. 저도 보면서 가장 충격적이었던 건 대지 면적이 여의도 면적의 수십, 수백 배에 달하는 값으로 입력된 사례였어요. 네네.
있었죠. 이건 누가 봐도 입력 과정에서 0을 몇 개 더 붙인 명백한 실수인데 이런 것들이 수십 년간 전혀 걸러지지 않고 시스템에 그대로 남아있었다는 게 좀 무섭기까지 하더라고요. 바로 그겁니다.
이런 오류들이 왜 문제가 되냐면 AI나 빅데이터 분석을 할 때 이런 극단적인 값, 이상치들이 분석 결과 전체를 왜곡시켜 버릴 수 있기 때문이에요. 아 그렇겠네요. 아주 똑똑한 분석 모델도 뭐 쓰레기 같은 데이터가 들어가면 쓰레기 같은 결과를 낼 수밖에 없는 거죠.
이렇게 방대하고 기상천외한 오류들을 사람이 일일이 찾아서 고치는 건 정말 불가능해 보여요. 불가능하죠. 여기서 드디어 우리의 AI 탐정이 등장하는 거군요.
맞습니다. 연구진은 이 거대한 미제사건을 해결하기 위해 AI를 투입했어요. 크게 세 가지 데이터 유형을 집중적으로 분석했는데요.
첫 번째는 방금 이야기한 면적 데이터, 두 번째는 건물의 쓰임새를 나타내는 용도 데이터, 그리고 마지막은 이 모든 흩어진 데이터를 연결하는 열쇠인 건물 ID입니다. 좋습니다. 그럼 첫 번째 수사 대상인 면적 데이터부터 살펴보죠.
AI는 기존 방식으로는 찾아내지 못했던 어떤 새로운 단서들을 찾아낸 나요? 연구진은 기존의 규칙 기반 검증, 그러니까 ‘대지 면적은 건축 면적보다 커야 한다.’ 같은 명확한 규칙과 함께 머신러닝을 활용한 이상값 탐지, 아웃라이어 디텍션 기법을 함께 사용했어요. 그랬더니 정말 흥미로운 패턴들이 드러나기 시작했습니다. 패턴이요? 그냥 이 데이터가 틀렸다를 넘어서 오류가 발생하는 방식에 일정한 경향이 있다는 걸 발견한 거군요.
정확해요. AI 탐정이 찾아낸 첫 번째 단서는 바로 시간적 패턴입니다. 시간적 패턴? 유독 1990년대에 지어진 건물 데이터에서 오류가 집중적으로 나타났어요.
아, 90년대요? 이건 당시 수기로 관리되던 건축물 대장을 전산 시스템으로 막 옮기던 시기였거든요. 그 과정에서 발생한 행정적 혼란과 데이터 누락이 30년이 지난 지금까지도 유령처럼 떠돌고 있다는 걸 시사하는 거죠. 아하, 디지털 전환기에 성장통이 남긴 흉터 같은 거군요.
그때의 혼란이 데이터의 화석처럼 박제된 셈이네요. 네, 그렇게 볼 수 있죠. 또 다른 패턴은 없었나요? 두 번째 단서는 지역적 패턴입니다.
건폐율과 용적률 관련 오류는 광주, 울산, 제주 지역에서 다른 시도보다 2배 이상 높게 나타나는 뚜렷한 특징을 보였어요. 특정 지역에서요? 네, 이건 지역별로 데이터를 관리하는 방식이나 기준에 미묘한 차이가 있을 수 있다는 걸 암시하죠. 특정 시기와 특정 지역에 오류가 몰려있다는 것만 알아내도 앞으로 데이터를 정비할 때 훨씬 효율적으로 접근할 수 있겠네요.
어디에 집중해야 할지 아닐까요? 바로 그게 AI를 활용하는 핵심이죠. 그리고 마지막으로 AI만이 찾아낸 새로운 유형의 오류가 있었습니다. 그건 뭔가요? 기존의 명확한 규칙으로는 잡아내기 힘든 아주 미묘하게 이상한 값들이 있었는데, 머신러닝이 이런 패턴을 포착해 냈어요.
흥미로운 점은 이런 미묘한 이상값들은 오히려 서울과 부산 같은 대도시에 더 집중되어 있었다는 겁니다. 잠깐만요, 그건 좀 의외인데요. 보통 대도시의 행정이 더 체계적일 거라고 생각하잖아요? 그렇죠.
왜 그런 결과가 나왔을까요? 보고서에 혹시 추정되는 이유가 있었나요? 보고서가 명확한 원인까지 제시하진 않지만 몇 가지 추론은 가능해요. 대도시는 건물의 종류가 훨씬 다양하고 복합용도 건물처럼 구조가 복잡한 경우가 많잖아요? 아, 맞아요. 그러다 보니 데이터 인격 자체가 더 까다로울 수 있고요.
또 다른 가능성은 데이터의 양 자체가 워낙 방대하다 보니 규칙 기반 검증만으로는 놓치는 오류가 상대적으로 더 많았을 수도 있다는 겁니다. 그렇군요. 중요한 건 기존의 촘촘한 그물망으로도 걸러지지 않는 또 다른 종류의 오류가 존재한다는 사실을 AI가 처음으로 수면 위로 드러냈다는 거죠.
와, 이건 정말 AI 탐정이 단순 제보를 받고 출동하는 수준이 아니라 아무도 몰랐던 범죄의 새로운 패턴에 밝혀낸 프로파일러 역할을 한 거네요. 네, 맞습니다. 자, 그럼 숫자 데이터인 면적을 넘어 텍스트 데이터인 용도는 어땠을지 궁금해지는데요.
이건 완전히 다른 종류의 도전이었을 것 같아요. 맞습니다. 용도 데이터의 문제는 숫자처럼 명확하게 틀린 걸 찾는 게 아니에요.
코드와 실제 텍스트 설명 사이에 불일치가 핵심 문제입니다. 불일치요? 예를 들어, 공식 용도 코드는 제1종 근린생활시설로 딱 정해져 있는데, 실제 대장에 자유롭게 기입하는 텍스트란에는 점포, 주택처럼 여러 용도가 뒤섞여 있거나, 심지어 창고처럼 전혀 다른 내용이 적혀 있는 경우가 아주 많아요. 그러니까 공식적인 주민등록상 이름과 주변 사람들이 부르는 별명이 전혀 다른 상황이랑 비슷하네요? 아, 아주 적절한 비유예요.
그래서 연구진은 이 자유롭게 쓰인 텍스트, 즉 별명을 보고 AI가 진짜 이름, 올바른 용도 코드를 예측하도록 학습시켰어요. 나이브 베이즈라는 모델을 사용했는데, 잠시만요, 나이브 베이즈 모델이라면 저희 같은 비전문가를 위해 간단하게 설명해 주실 수 있을까요? 스팸메일 필터 같은 원리라고 들은 것 같기도 한데요. 네, 정확히 보셨어요.
나이브 베이즈는 특정 단어들이 나타날 확률을 기반으로 카테고리를 분류하는 아주 고전적이면서도 강력한 알고리즘이에요. 스팸메일에 광고, 당첨 같은 단어가 많으면 아, 이건 스팸일 확률이 높다고 판단하는 것과 똑같죠? 네네. 여기서도 점포, 가게 같은 단어가 텍스트에 있으면 제1종 근린생활시설로, 사무실, 회사가 있으면 업무시설로 분류하도록 학습시킨 겁니다.
이해가 쏙 되네요. 그래서 그 AI 분류기의 성능은 어땠나요? 예측 정확도가 84% 이상으로 꽤 높게 나왔어요. 오, 84%면? 하지만 동시에 명확한 한계도 보여줬습니다.
데이터의 양이 압도적으로 많은 주택이라는 카테고리로 예측이 쏠리는 경향을 보였어요. 아, 애매하면 일단 가장 흔한 답을 찍는 거군요? 그렇죠. 그리고 하나의 건물에 여러 용도가 복합된 경우를 제대로 분류해 내지 못했습니다.
이건 AI가 아직 인간이 사용하는 언어의 복잡한 뉘앙스나 맥락을 완벽하게 이해하지는 못한다는 점을 보여주는 좋은 사례예요. 84%라는 숫자는 인상적이지만 반대로 생각하면 16%의 건물, 즉 수십만 채의 건물이 여전히 잘못 분류될 수 있다는 거니까요. 말씀하신 대로 아직 갈 길이 멀어 보이네요.
네, 특히 이런 데이터는 공공정책의 기반이 되기 때문에 84%의 정확도를 성공이라고 부르기에는 아직 조심스러운 단계인 거죠. 자, 그럼, 이제 마지막 퍼즐 조각으로 넘어가 보죠. 건축물 대장, 건축 인허가 데이터, 주택 공시가격 데이터, 이렇게 중요한 정보들이 사실은 다 제각각 흩어져 있잖아요.
맞습니다. 이 건물이 저 건물과 같은 건물이라는 걸 어떻게 알고 하나로 모을 수 있을까요? 이 연결고리가 제대로 작동하지 않으면 앞서 말한 모든 게 무용지물이 될 수도 있을 텐데요. 바로 그게 오랫동안 데이터 활용의 가장 큰 장벽이었습니다.
과거에는 주소와 건물명을 가지고 데이터를 연결하려고 시도했어요. 네, 그게 일반적이겠죠. 그런데 보고서를 보면 이런 방식으로 건축 인허가 데이터와 건축물 대장을 연결했을 때 성공률이 고작 13.5% 불과했다고 합니다.
13.5%요? 10개 중에 1, 2개만 겨우 연결된다는 거잖아요? 거의 쓸모없는 수중이죠. 그렇네요. 그렇죠.
주소 표기법이 조금만 달라도 건물 이름에 오타가 하나만 있어도 다른 건물로 인식해 버리니까요. 그래서 이 문제를 해결하기 위해 도입된 것이 바로 건물마다 부여하는 고유식별자, 건물 아이디입니다. 아. 사람으로 치면 주민등록번호 같은 거죠.
아, 건물마다 고유 번호를 붙여서 꼬리표를 달아준 거군요. 효과는 어땠나요? 극적이었을 것 같은데요. 엄청 많습니다.
연구 결과 이 건물 아이디를 사용하니까 건축 인허가 데이터와의 연계 성공률이 13.5%에서 93.6%까지 수직으로 상승했어요. 와, 93.6%요? 네. 거의 모든 건물의 이력을 하나로 끌 수 있게 된 거죠. 엄청난 발전입니다.
13.5%에서 93.6%라니 정말 드라마틱한 변화네요. 그럼, 이제 건물 아이디가 모든 문제를 해결한 만능 열세라고 봐도 될까요? 아, 아쉽지만 그렇지는 않았어요. 여기서 또 다른 차원의 문제가 드러납니다.
또 다른 문제요? 연결은 성공적으로 됐는데, 막상 연결된 두 데이터를 나란히 놓고 비교해 보니 내용이 다른 경우가 많았던 거예요. 아. 예를 들어, 인허가 서류상의 면적과 완공 건축물 대장의 면적이 일치하는 경우는 90% 수준에 그쳤습니다. 90%면 나쁘지 않아 보일 수도 있지만, 나머지 10%는 서류마다 건물의 크기가 바르다는 거잖아요.
이건 또 다른 혼란에 나올 수 있겠는데요. 맞습니다. 심지어 일부 건물에는 동일한 아이디가 중복으로 부여된 오류도 발견됐고요.
아, 정말요? 사람으로 치면 한 사람에게 주민등록번호가 두 개 발급된 셈이죠. 그렇군요. 즉, 건물 아이디는 흩어진 데이터를 연결하는 매우 강력한 도구인 건 맞지만, 그 아이디 자체를 깨끗하게 관리하고 연결된 데이터들의 내용까지 최종적으로 일치시키는 데이터 정합성 확보라는 더 어려운 과제가 우리 앞에 남아있다는 걸 보여준 겁니다.
정리를 해보자면, 우리나라 건축물 데이터는 생각보다 심각한 구조적 문제들을 안고 있고, AI는 이 문제들을 해결할 아주 강력한 도구가 될 수 있다는 것. 하지만 AI 역시 만능은 아니라는 점까지 명확히 확인한 셈이네요. 네, 특히 AI는 단순히 틀린 값을 찾아내는 교정자를 넘어 오류가 발생하는 숨겨진 시공간적 패턴을 드러내는 프로파일러의 역할까지 해낼 수 있다는 가능성을 보여준 것이 이번 연구의 가장 큰 수학이라고 할 수 있습니다. 이 보고서의 내용들을 쭉 따라오면서 제가 개인적으로 가장 인상 깊었던 건 이 모든 분석 끝에 연구진이 내놓은 제안이었어요.
아, 마지막 제안이요? 네. 보통 이런 문제를 해결하라고 하면 정부가 공식 대장을 빨리 수정해야 한다고 결론 내리기 쉽잖아요. 그런데 여기서는 전혀 다른 해법을 제시하더라고요. 맞아요.
아주 파격적인 제안이었죠. 공식 원본 대장을 직접 건드리는 대신 AI로 품질이 개선된 데이터를 오픈소스 방식으로 별도로 만들어서 배포하자는 아이디어였습니다. 여기서 더 나아가 데이터를 검증하는 데 사용된 규칙과 알고리즘까지 전부 공개하자고 제안했죠.
누구나 데이터가 어떤 과정을 거쳐 깨끗해졌는지 들여다보고 또 그 과정에 직접 참여하고 검증할 수 있게 만들자는 거잖아요. 우리가 다 함께 내용을 채우고 수정하는 위키피디아처럼요. 그렇죠.
이건 데이터에 대한 접근 방식을 근본적으로 바꾸는 제안이라고 생각했어요. 네. 데이터의 생산부터 유통, 활용까지 전 과정의 투명성을 확보하자는 거죠. ‘정부가 제공하니 그냥 믿고 쓰세요.’가 아니라 ‘이런 과정을 통해 만들어졌으니 함께 검증하고 개전에 나갑시다.’라는 신뢰의 패러다임을 제시한 겁니다.
이것이 진정한 데이터 신뢰 사회로 나아가는 아주 중요한 첫걸음이 될 수 있다고 봅니다. 오늘 이야기는 여기까지입니다. 건축 데이터 속 오류라는 다소 딱딱한 주제에서 시작했지만, AI 탐정의 추적을 따라가다 보니 우리 사회가 어떻게 데이터와 신뢰를 쌓아가야 하는지에 대한 깊은 고민까지 해볼 수 있었네요.
네. 마지막으로, 이 보고서가 남긴 생각할 거리를 여러분께 던지면서 마무리하겠습니다. 네. 이 보고서는 현재와 미래의 데이터를 더 정확하게 만드는 데 집중하고 있어요. 그런데 우리가 다루는 이 데이터들은 단순히 숫자의 나열이 아니라 수십 년에 걸친 우리 도시의 물리적 역사 그 자체이기도 합니다.
만약 우리가 AI를 이용해서 과거 기록에 남은, 이 오류들을 완벽하게 수정해 나간다면 우리는 과연 단순히 오타를 바로잡는 것일까요? 아니면 우리도 모르는 사이에 과거 행정의 혼란이나 기술적 불안전함 같은 시대의 흔적까지 지워버리면서 우리의 건축 역사를 묘묘하게 재편집하고 있는 것은 아닐까요? 네. 이 불안전함을 지워낼 때 우리는 무엇을 함께 읽혀낼지도 모릅니다. 한 번쯤 깊이 고민해 볼 문제가 아닐까 싶습니다.